精算历史数据的几种调整方法

chilli_drop

以前上课老师有讲过数据清洗的几种方法，那时候感触不会这么深，什么时候用capping，什么时候需要补零，capping的几种方法什么时候使用。后来开始工作开始处理数据了，才知道数据为什么需要做这样的调整，出现问题了是哪个地方没有调整到位。这篇想总结一下数据调整的几种注意点：

一、数据质量评估

总量合理性：总量合理性，一是趋势进展合理性，也就是清单汇总后逐月趋势是不是合理，可以检验三角形数据和清单数据的看趋势；二是不同口径数据校验，比如检验业务数据和财务数据的合理性；

关键字合理性：关键字的唯一性，字段值的缺失比例，字段区间的逻辑合理性等；

指标合理性：指标合理性，各个维度的投保率，出险频率，赔付率，折扣率等的合理性等；

二、数据调整（回写）

转移：比如交强险限额提升，原来三者险的赔付会被吸收到交强险里，再比如三者险保额提升，原来条款保额为10万、20万、30万现在保额为20万、30万、40万，10万保单会转移到哪一档等等问题。需要设计一个转移模型，类似于马尔科夫链。

趋势：社会经济生活每年的数据都会有变化，比如GDP每年会有6-7%的增速、不同地区人口老龄化趋势、最低工资标准每年会有所提升、各地每年出台的人伤赔偿标准、每年城乡一体化会影响医保、社保等的统筹。这些都会影响到赔付，拿车险举例，有死亡的事故会涉及到死亡赔偿标准，50岁死亡赔偿标准是最低收入的2倍（举例），30岁是10倍（举例），那么当地的最低收入标准和人口结构就会影响赔付，这些发生变化就需要进行调整。

剔除：比如疫情期间大家几乎都不出行，因此赔付率非常低，几乎是无法调整的，所以可以采用的办法就是对于疫情期间的数据进行整体的剔除，视情况决定是否需要对剔除的区间进行趋势性补全数据（比如提出后某段时间内空白的数据采用线性插值，线性回归或者其他方法进行回补）

值得注意的的有三点：

1、回写的颗粒度：数据稳定、一致的最小类别

2、记录各分项回写：所有的还原都需要做好记录，需要评估每个调整的影响大小

3、异常的兜底：因为调整是有可能出现异常的，比如趋势调整中我们采用的是过去三年赔付率的平均增长率，对于数据不稳定的地区，可能第一年的赔付是1000（只是小伤），第二年是100000（出大问题），第三年又回归1000，那两年的增长率分别为9900%、-99%，两年的算术平均，增长4999.5%，第四年数据调整为1000*（4999.5%+1）那就不对了。因此调整规则需要正确的同时，需要设计一个规则兜底，比如全国每年大概增长10%，当出现异常值的时候，我们采用全国的数。

三、路径选择

我们合理根据核损通过金额逐步估计得到最终的赔款，也可以通过已决赔款得到最终赔款，要根据哪种要更好来确认最终的。类似于选因子，只不过精算的选因子需要和业务、理赔相关，一方面赔付结果时业务过程导致的，另一方面过程因子有利于管理。

四、使用

1、测算（分析）

调整影响的大小：分为都汇总数据

分析影响的驱动因素：各因子分项影响+结构性变化影响（这一块还挺复杂，可以但拎出来讲）

2、预测

1、数据清洗：常规的数据清洗方法比如capping、连续性变离散型、独热编码、聚类打标签等；

2、一维或多维分析：看字段影响和趋势；

3、可以上模型了……