M
什么时候可以用 - 反选, 什么时候不能用 - 反选
例子一:这个例子里面,我们选择了前三行作为测试集,用了后面的行作为训练集
split <- c(1,2,3)
train <- mydata[split,]
test <- mydata[-split,]
例子二:这个例子里面,我们选择了 ID < 50 作为训练集,其它为测试集
split <- mydata$ID < 50
# 这里split的结果是一个包含了True和False的数列!!!
train <- mydata[split,]
test <- mydata[!split,]
下面的例子都是从网上找到的可以replicate的代码
例子一:
data(mtcars)
## 75% of the sample size
smp_size <- floor(0.75 * nrow(mtcars))
## set the seed to make your partition reproducible
set.seed(123)
train_ind <- sample(seq_len(nrow(mtcars)), size = smp_size)
# 注释:这里用sample生成的是从最大行数里面随便选的一些行数
train <- mtcars[train_ind, ]
test <- mtcars[-train_ind, ]
例子二:
n = nrow(dataset)
split = sample(c(TRUE, FALSE), n, replace=TRUE, prob=c(0.75, 0.25))
# 注释:这里用sample生成的是用True和False组成的,长度为原本数据集长度的变量
training = dataset[split, ]
testing = dataset[!split, ]