您现在的位置是:主页 > news > 大学什么专业是学网站开发的/小说网站排名前十

大学什么专业是学网站开发的/小说网站排名前十

admin2025/6/28 10:15:01news

简介大学什么专业是学网站开发的,小说网站排名前十,网站做百度推广要多少钱,用买的服务器 做网站文章目录概主要内容采样方式权重α\alphaαInference phase代码Zhu B., Cui Q., Wei X. and Chen Z. BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition. CVPR 2020. 概 数据的长短尾效应是当前比较棘手的问题, 本文提出用分支网络…

大学什么专业是学网站开发的,小说网站排名前十,网站做百度推广要多少钱,用买的服务器 做网站文章目录概主要内容采样方式权重α\alphaαInference phase代码Zhu B., Cui Q., Wei X. and Chen Z. BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition. CVPR 2020. 概 数据的长短尾效应是当前比较棘手的问题, 本文提出用分支网络…

文章目录

Zhu B., Cui Q., Wei X. and Chen Z. BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition. CVPR 2020.

数据的长短尾效应是当前比较棘手的问题, 本文提出用分支网络来应对这一问题, 并取得了不错的结果.

主要内容

image-20210118165405334

这篇文章的创新点是用两个分支来适应数据的不平衡.
如图所示, 上面的分支用于标准的训练, 而下面的分支则采用适合不平衡数据的训练方式: 即一般的训练是均匀的采样分布, 而非标准训练采用的是一个非均匀的依赖于样本分布的.

通过均匀采样得到(xc,yc)(x_c, y_c)(xc,yc), 通过非均匀采样得到(xr,yr)(x_r, y_r)(xr,yr), 分别喂入上下分支得到特征表示fcf_cfcfrf_rfr.
注意到, 上下两个分支是共享部分参数的, 作者实际选择的是残差网络, 设定为除了最后一个residual block外均是共享的.

根据fcf_cfcfrf_rfr进一步得到
z=αWcTfc+(1−α)WrTfr,z = \alpha W^T_c f_c + (1-\alpha) W_r^T f_r, z=αWcTfc+(1α)WrTfr,
[z1,z2,⋯,zC]T[z_1, z_2,\cdots, z_C]^T[z1,z2,,zC]T.
得到相应的概率向量
p^i=ezi∑i=1Cezj.\hat{p}_i = \frac{e^{z_i}}{\sum_{i=1}^{C}e^{z_j}}. p^i=i=1Cezjezi.
最后通过下列损失函数进行训练
L=αE(p^,yc)+(1−α)E(p^,yr).\mathcal{L} = \alpha E(\hat{p}, y_c) + (1-\alpha)E(\hat{p}, y_r). L=αE(p^,yc)+(1α)E(p^,yr).
实际上, α\alphaα就是一个调整标准训练和处理不平衡数据的权重.

采样方式

对于非均匀分布, 作者采取了如下方式构造采样分布, 假设每个类的样本数目为Ni,i=1,2,…,CN_i, i=1,2,\ldots,CNi,i=1,2,,C. 则采样比例为
Pi=wi∑j=1Cwj,P_i = \frac{w_i}{\sum_{j=1}^C w_j}, Pi=j=1Cwjwi,
其中wi=1Niw_i=\frac{1}{N_i}wi=Ni1.

权重α\alphaα

作者采用的是这样的一种方案
α=1−(TTmax)2,\alpha = 1 - (\frac{T}{T_{max}})^2, α=1(TmaxT)2,
其中TTT为当前的epoch, TmaxT_{max}Tmax为总的训练epochs.
在实际测试中, 作者也尝试了一些别的方案, 不过别的方案不如此方案理想.
直观上的解释就是, 训练过程会有普通的训练渐渐偏向re-balance的训练.

Inference phase

在推断过程中, 设定α=0.5\alpha=0.5α=0.5.

代码

原文代码