M
Hi Sunseeker,
很荣幸解答你的问题。我想这不仅仅是一个R相关的问题,更是一个建模思路上的问题
我查阅了一下万能的互联网,发现这个Model Claim Frequency来源于这个网站
里面着重讲到了一个概念,叫做"over-dispersion",意思就是实际上某变量的波动性比拟合的分布的波动性要高。这是保险理赔数据常常会出现的一个问题。
不过幸运的是,由于原本数据集的特性,over-dispersion没有造成很大影响,Poission分布拟合的效果还是不错的:
为了探究over-dispersion"会带来的影响,作者拿出了10%的数据,把这些数据里面的理赔量手动调整成负二项分布。这里面的sample 3就是原本数据里面拿出的10%的数据。df_sample是把这10%的数据和别的数据放回到了一起。mu和size的值不需要太关注,因为这就是一个数据模拟而已。这整个过程叫做Resample。
sample3 <- data4[ sample( which(data4\$numclaims==0),
round(0.1*length(which(data4\$numclaims==0)))), ]
y <- rnbinom(n = 6323, mu = 1, size = 3) # n value should be equal to sample 3
sample3\$numclaims <- y
df_sample <- rbind(sample1,sample2,sample3)
最后,用resample后的数据来看,Negative Binominal的拟合效果果然更好。
希望这个解答了你的问题。欢迎讨论~