您现在的位置是:主页 > news > 小网站托管费用/西安百度关键词包年
小网站托管费用/西安百度关键词包年
admin2025/6/6 11:43:45【news】
简介小网站托管费用,西安百度关键词包年,高价做单网站,怎么建设网站挣钱1. 数据归一化 为什么要做归一化呢,这里面真的有大学问了! 首先数据归一化的目的是消除数据单位不一致而造成的量纲不一样的影响。那如果咱们不这么做的话,会出现什么问题呢? 我们来详细了解一下,这里面真的是不看不知…
1. 数据归一化
为什么要做归一化呢,这里面真的有大学问了!
首先数据归一化的目的是消除数据单位不一致而造成的量纲不一样的影响。那如果咱们不这么做的话,会出现什么问题呢?
我们来详细了解一下,这里面真的是不看不知道,一看吓一跳
先看一个例子,假如你收集到一个数据集,一列是年龄,一列是身高(厘米)。比如体重的数据都是60,65。身高的数据是180,185,你发现它的量纲远远大于age,身高对应的权重是W2,体重对应的权重是W1,假如要根据这些数据预测寿命,
然后我们会得出这么一个结论,如果 远小于
, 那么为了对应的权重
远大于
的。这是为什么呢?因为我
得乘上大一点的数才能和
够得着啊(假设两个x变量的影响相当的话)
但是这么一来,正是因为权重上两个有差别,所以在梯度下降的时候就出大问题了。
利用梯度下降求导求最小值:
对 求偏导:
对 求偏导:
这么一着就看出差异了,明显的 的更新速度要比
快很多,因为量纲不一致,x2远大于x1所导致的。
所以损失函数等高线图 的会走一大步,
只会走一丢丢,并且由于梯度方向是垂直于等高线方向的,所以就走出一个Z字型了。
当中有两个常用的归一化方法:
a. 线形归一化
将数据里面的最大值到最小值的距离就是1,记为S,然后将每个样品的值到最小值的距离送到S上。
b. 零均值归一化
将数据映射到均值为0,标准差为1的分布上,假设原数据的均值,标准差是
做归一化的目的,就是为了加快寻找最优解的速度,因为数据的尺度不一样,所以数据不同属性间的分布会不一样,就像下图:
我们做了归一化后,不同属性的值都在同一尺度下,于是找最优值的速度会快很多
归一化暂时对决策树模型不适用,因为决策树是用信息熵/信息增益比去衡量(也就是混乱程度,单位量纲对其没有影响),做不做归一化效果是一样的。
但对逻辑,线形回归,神经网络,支持向量机还是很管用的。
2. 编码方法
在对数据进行预处理时,应该怎么处理类别型特征?
对于类别型特征(机器看不懂),我们需要将其转换成数值类型特征才可以正确工作
a. 序号编码
序号编码通常是处理具有大小关系的数据
(高,中,低)转换成(3,2,1)
b. 独热编码
用来处理类别间没有大小关系的特征。
我们可以将N种类型用一个向量去表示,假设A被分到3类上,共有5类,表示为:
当有很多0存在这个向量里面,我们可以用向量的稀疏性去表达:
:第一个表示长度,第二个表示非0的下标,第三个表示非0下标对应值
但是这也有问题存在:
1. 在高维度的空间内,两点间的距离是很难得到有效衡量的
2. 在逻辑回归模型那,如果使用高维的特征,参数的数量会一下子蹭地增多,非常容易造成过拟合的问题。
3. 当我们转换成onehot编码,仅有部分维度是对分类/预测是有帮助的,因此可以考虑配合特征选择来降低维度
c. 二进制编码
二进制编码的本质是利用二进制对ID进行哈希映射,最终得到0/1的特征向量
譬如我们共有4类,直接先映射到ID-> 1,2,3,4,然后再将这个ID用二进制表示出来
0001, 0010, 0011, 0100,
3. 高维组合特征的处理
什么是组合特征,如何让处理高维的组合特征?
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。
这样,两个离散特征就可以转换成独热编码了,但是,当我们把用户ID,用户行为一起引入后,维度就会很大很大
假设第一个特征有M维,第二个特征有N维,再加上用户ID,就变成M*N*User Num的大小了,书上给出了一种将用户ID和组合特征用K维的低纬向量去表示,也就是矩阵分解。
4. 组合特征
上面提到了怎么降低组合特征的维度,但是并不是随意组合都是可以的,有一些特征方差就很小,组合也没用,因此需要一种方法来帮助我们找到对应的可以组合的特征
但是书里提到的很少,关键信息就是给定原始输入的话,可采用梯度提升决策树(GBDT),该方法的思想是每次都在之前构建的决策树的残差上构建下一棵决策树。
这篇文章详细写了关于决策树以及GBDT的原理,决策树在选择特征的时候,当落到叶子结点,从根节点一路到叶子结点所用的特征其实就是在组合特征的过程。以及有例子解释了整个特征选择的过程
5. 文本表示模型
这里就是要学如何表示文本数据
a. 词袋模型
将每一篇文章都用一个大向量去表示,这个向量的维度是每个单词,对应的权重反应了这个词在原文章中的重要程度。用TF-IDF去计算
表达的是单词t在文档d中出现的频率,
是逆文档率,
什么是逆文档率,如果一个单词在非常多的文章汇总出现,那么它可能好似比较通用的词汇,对区分某篇文章特殊语义的贡献较小,这样在分母也会更大,可以理解为一个惩罚项。
但是某些词语如果拆分来看的话,意思就会发生改变,于是我们将一个连续出现的n个词组成的词组也作为一个单独的特征放到向量表示中去,构成了N-gram模型。
b. 主题模型
书上说后面第六章第五节再讲,概括性而言就是从文本库中发现有代表性的主题(得到了每个主题的词语的分布特性)那我也后面再看吧
c. 词嵌入与深度学习模型
词嵌入式一类将词向量化的模型的统称,核心思想就是将每个词都映射成低维(K维)的空间上的一个稠密向量。K维空间的每一维可以看作是一个隐含的主题,只是不像主题模型那样直观。
我怎么看起来感觉这就是Embedding的做法呀?我们将每个词映射到K维的响亮,如果一篇文档有N个词,那就用一个 N*K 维的矩阵去表示这篇文档。
用Embedding和深度学习相结合,除了能够用更好的方式去表达一个词之外,还结合了深度学习的特征,一种天然的自动进行特征交叉的方式,能够更好地对文本建模,抽取出高层的语义特征。
用低维的Embedding去代替高维的Onehot,可以减少网络中待学习的参数,提高训练速度,降低过拟合的风险
6. Word2vec
word2vec是如何工作的,另外一篇文章有写
7. 图像数据不足时的处理方法
在图像分类任务中,训练数据不足会带来什么问题?
如何缓解数据不足带来的问题呢?
下面的回答第二个问题,是真的教科书般的回答。
一个模型所能童工的信息一半来源于两个方面。一方面是训练数据蕴含的信息,一方面是模型在形成过程,人们提供的先验信息。当训练数据不足的时候,说明模型从原始数据中获取额度信息比较少,所以这种情况下想要保持模型的效果,就需要更多的先验信息。
先验信息可以作用在模型上,例如让模型采用特定的内在结构,条件假设或者添加一些约束条件。
先验信息同样可以直接施加在数据集上,即根据特定的先验假设去做调整,变化或者扩展训练集,以利于后续模型的训练和学习
下面是回答第一个问题。如果在图像分类的时候数据不足,很容易发生过拟合的现象,对应的处理方法大致可以分为两类:
1. 基于模型的方法,采用降低过拟合的措施,包括简化模型(减少参数,非线性变成线性),添加约束项(L1/L2/BatchNorm),Droupout超参数等。
2. 基于数据的方法,主要通过数据增强(aruguement)也就是上面提到的《 先验信息同样可以直接施加在数据集上,即根据特定的先验假设去做调整,变化或者扩展训练集》
具体的数据增强有:
1. 一定程度的随机旋转,平移,缩放,剪裁,填充,左右翻转。
2. 对图像中的像素添加噪声扰动。
3. 颜色变换,对RGB组PCA,得到对应特征值,然后在三通道上添加均值为0,方差较小的高斯分布随机数,
4. 改变亮度,清晰度,对比度,锐度等等
还有一些就是基于迁移学习来做,也就是我们常说的 预训练通用模型,并针对目标任务的小数据集上进行fine-tune(微调)。
(都是书上的原话)