您现在的位置是:主页 > news > 物流信息网站有哪些/沧州网站建设

物流信息网站有哪些/沧州网站建设

admin2025/5/9 12:46:00news

简介物流信息网站有哪些,沧州网站建设,手机app ui界面设计,百度收录网站之后又怎么做因为我们只有一个数据集,既要训练,又要测试,所以我们需要对测试集进行适当处理,从中产生训练集 SSS 和测试集 TTT。使用模型在测试集上的测试误差作为泛化误差的近似。 无论什么数据集拆分方法,我们都需要注意&#x…

物流信息网站有哪些,沧州网站建设,手机app ui界面设计,百度收录网站之后又怎么做因为我们只有一个数据集,既要训练,又要测试,所以我们需要对测试集进行适当处理,从中产生训练集 SSS 和测试集 TTT。使用模型在测试集上的测试误差作为泛化误差的近似。 无论什么数据集拆分方法,我们都需要注意&#x…

因为我们只有一个数据集,既要训练,又要测试,所以我们需要对测试集进行适当处理,从中产生训练集 SSS 和测试集 TTT。使用模型在测试集上的测试误差作为泛化误差的近似。

无论什么数据集拆分方法,我们都需要注意:

  • 在划分训练集和测试集时,要尽可能保持数据分布的一致性;
  • 在确定划分方法后,可以通过若干次划分、重新试验评估取平均值来求得更准确的评估方法。

方法一:留出法(简单交叉验证)

直接将数据集 DDD 划分为两个互斥的集合,其中一个集合作为训练集 SSS,另一个作为测试集 TTT,即 D=S∪T,S∩T=∅D = S \cup T, \ S \cap T = \varnothingD=ST, ST=。一般来说,我们将 23\frac{2}{3}32 - 45\frac{4}{5}54 的样本用于训练,剩余样本用于测试。

相关教材:《机器学习》(周志华):2.2.1(留出法);《统计学习方法》(李航):1.5.2.1(简单交叉验证)

方法二:交叉验证法(S 折交叉验证)

先将数据集 DDD 划分为 kkk 个大小相似的互斥子集,即 D=D1∪D2∪⋯∪Dk,Di∩Dj=∅(i=j)D = D_1 \cup D_2 \cup \cdots \cup D_k, \ D_i \cap D_j = \varnothing \ (i=j)D=D1D2Dk, DiDj= (i=j),然后每次利用 k−1k-1k1 个子集的并集作为训练集 SSS,利用余下的子集作为测试集 TTT。这样就得到了 kkk 组训练集和测试集,从而可进行 kkk 次训练和测试,最终这 kkk 次测试结果的均值即为测试集上的测试误差。

相关教材:《机器学习》(周志华):2.2.2(交叉验证法);《统计学习方法》(李航):1.5.2.2(S 折交叉验证)

方法三:留一法(留一交叉验证)

不妨设交叉验证法中数据集 DDDmmm 个样本,若令 k=mk = mk=m,则得到了留一法。

相关教材:《机器学习》(周志华):2.2.2(交叉验证法);《统计学习方法》(李航):1.5.2.3(留一交叉验证)

方法四:自助法

不妨设数据集 DDDmmm 个样本,从 DDD 中有放回地随机抽取 mmm 个样本,构成训练集 SSS。此时每个样本不被采到的概率为 lim⁡m→∞(1−1m)m=1e≈0.368\lim_{m \rightarrow \infty}(1 - \frac{1}{m})^m = \frac{1}{e} \approx 0.368limm(1m1)m=e10.368,即通过有放回的随机抽样,约有 36.8% 的样本未出现在训练集之中,这些样本即为测试集 TTT

相关教材:《机器学习》(周志华):2.2.3(自助法)