您现在的位置是:主页 > news > 物流信息网站有哪些/沧州网站建设
物流信息网站有哪些/沧州网站建设
admin2025/5/9 12:46:00【news】
简介物流信息网站有哪些,沧州网站建设,手机app ui界面设计,百度收录网站之后又怎么做因为我们只有一个数据集,既要训练,又要测试,所以我们需要对测试集进行适当处理,从中产生训练集 SSS 和测试集 TTT。使用模型在测试集上的测试误差作为泛化误差的近似。 无论什么数据集拆分方法,我们都需要注意&#x…
因为我们只有一个数据集,既要训练,又要测试,所以我们需要对测试集进行适当处理,从中产生训练集 SSS 和测试集 TTT。使用模型在测试集上的测试误差作为泛化误差的近似。
无论什么数据集拆分方法,我们都需要注意:
- 在划分训练集和测试集时,要尽可能保持数据分布的一致性;
- 在确定划分方法后,可以通过若干次划分、重新试验评估取平均值来求得更准确的评估方法。
方法一:留出法(简单交叉验证)
直接将数据集 DDD 划分为两个互斥的集合,其中一个集合作为训练集 SSS,另一个作为测试集 TTT,即 D=S∪T,S∩T=∅D = S \cup T, \ S \cap T = \varnothingD=S∪T, S∩T=∅。一般来说,我们将 23\frac{2}{3}32 - 45\frac{4}{5}54 的样本用于训练,剩余样本用于测试。
相关教材:《机器学习》(周志华):2.2.1(留出法);《统计学习方法》(李航):1.5.2.1(简单交叉验证)
方法二:交叉验证法(S 折交叉验证)
先将数据集 DDD 划分为 kkk 个大小相似的互斥子集,即 D=D1∪D2∪⋯∪Dk,Di∩Dj=∅(i=j)D = D_1 \cup D_2 \cup \cdots \cup D_k, \ D_i \cap D_j = \varnothing \ (i=j)D=D1∪D2∪⋯∪Dk, Di∩Dj=∅ (i=j),然后每次利用 k−1k-1k−1 个子集的并集作为训练集 SSS,利用余下的子集作为测试集 TTT。这样就得到了 kkk 组训练集和测试集,从而可进行 kkk 次训练和测试,最终这 kkk 次测试结果的均值即为测试集上的测试误差。
相关教材:《机器学习》(周志华):2.2.2(交叉验证法);《统计学习方法》(李航):1.5.2.2(S 折交叉验证)
方法三:留一法(留一交叉验证)
不妨设交叉验证法中数据集 DDD 有 mmm 个样本,若令 k=mk = mk=m,则得到了留一法。
相关教材:《机器学习》(周志华):2.2.2(交叉验证法);《统计学习方法》(李航):1.5.2.3(留一交叉验证)
方法四:自助法
不妨设数据集 DDD 有 mmm 个样本,从 DDD 中有放回地随机抽取 mmm 个样本,构成训练集 SSS。此时每个样本不被采到的概率为 limm→∞(1−1m)m=1e≈0.368\lim_{m \rightarrow \infty}(1 - \frac{1}{m})^m = \frac{1}{e} \approx 0.368limm→∞(1−m1)m=e1≈0.368,即通过有放回的随机抽样,约有 36.8% 的样本未出现在训练集之中,这些样本即为测试集 TTT。
相关教材:《机器学习》(周志华):2.2.3(自助法)