精算历史数据的几种调整方法
-
以前上课老师有讲过数据清洗的几种方法,那时候感触不会这么深,什么时候用capping,什么时候需要补零,capping的几种方法什么时候使用。后来开始工作开始处理数据了,才知道数据为什么需要做这样的调整,出现问题了是哪个地方没有调整到位。这篇想总结一下数据调整的几种注意点:
一、数据质量评估
总量合理性:总量合理性,一是趋势进展合理性,也就是清单汇总后逐月趋势是不是合理,可以检验三角形数据和清单数据的看趋势;二是不同口径数据校验,比如检验业务数据和财务数据的合理性;
关键字合理性:关键字的唯一性,字段值的缺失比例,字段区间的逻辑合理性等;
指标合理性:指标合理性,各个维度的投保率,出险频率,赔付率,折扣率等的合理性等;
二、数据调整(回写)
转移:比如交强险限额提升,原来三者险的赔付会被吸收到交强险里,再比如三者险保额提升,原来条款保额为10万、20万、30万现在保额为20万、30万、40万,10万保单会转移到哪一档等等问题。需要设计一个转移模型,类似于马尔科夫链。
趋势:社会经济生活每年的数据都会有变化,比如GDP每年会有6-7%的增速、不同地区人口老龄化趋势、最低工资标准每年会有所提升、各地每年出台的人伤赔偿标准、每年城乡一体化会影响医保、社保等的统筹。这些都会影响到赔付,拿车险举例,有死亡的事故会涉及到死亡赔偿标准,50岁死亡赔偿标准是最低收入的2倍(举例),30岁是10倍(举例),那么当地的最低收入标准和人口结构就会影响赔付,这些发生变化就需要进行调整。
剔除:比如疫情期间大家几乎都不出行,因此赔付率非常低,几乎是无法调整的,所以可以采用的办法就是对于疫情期间的数据进行整体的剔除,视情况决定是否需要对剔除的区间进行趋势性补全数据(比如提出后某段时间内空白的数据采用线性插值,线性回归或者其他方法进行回补)
值得注意的的有三点:
1、回写的颗粒度:数据稳定、一致的最小类别
2、记录各分项回写:所有的还原都需要做好记录,需要评估每个调整的影响大小
3、异常的兜底:因为调整是有可能出现异常的,比如趋势调整中我们采用的是过去三年赔付率的平均增长率,对于数据不稳定的地区,可能第一年的赔付是1000(只是小伤),第二年是100000(出大问题),第三年又回归1000,那两年的增长率分别为9900%、-99%,两年的算术平均,增长4999.5%,第四年数据调整为1000*(4999.5%+1)那就不对了。因此调整规则需要正确的同时,需要设计一个规则兜底,比如全国每年大概增长10%,当出现异常值的时候,我们采用全国的数。
三、路径选择
我们合理根据核损通过金额逐步估计得到最终的赔款,也可以通过已决赔款得到最终赔款,要根据哪种要更好来确认最终的。类似于选因子,只不过精算的选因子需要和业务、理赔相关,一方面赔付结果时业务过程导致的,另一方面过程因子有利于管理。
四、使用
1、测算(分析)
调整影响的大小:分为都汇总数据
分析影响的驱动因素:各因子分项影响+结构性变化影响(这一块还挺复杂,可以但拎出来讲)
2、预测
1、数据清洗:常规的数据清洗方法比如capping、连续性变离散型、独热编码、聚类打标签等;
2、一维或多维分析:看字段影响和趋势;
3、可以上模型了……