在前面的几个章节中,我们介绍了几种基于不同半监督假设的模型优化方案,包括Mean Teacher等一致性正则约束,FGM等对抗训练,min Entropy等最小熵原则,以及Mixup等增强方案。虽然出发点不同但上述优化方案都从不同的方向服务于半监督的3个假设,让我们重新回顾下(哈哈自己抄袭自己):
moothness平滑度假设:近朱者赤近墨者黑,两个样本在高密度空间特征相近,则label应该一致。优化方案如Mixup,一致性正则和对抗学习
Cluster聚类假设:高维特征空间中,同一个簇的样本应该有相同的label,这个强假设其实是Smoothness的特例
Low-density Separation低密度分离假设:分类边界应该处于样本空间的低密度区。这个假设更多是以上假设的必要条件,如果决策边界处于高密度区,则无法保证簇的完整和边缘平滑。优化方案入MinEntropy
MixMatch则是集各家所长,把上述方案中的SOTA都融合在一起实现了1+1+1>3的效果,主要包括一致性正则,最小熵,Mixup正则这三个方案。想要回顾下原始这三种方案的实现可以看这里
本章介绍几种半监督融合方案,包括MixMatch,和其他变种MixText,UDA,FixMatch
MixMatch
针对无标注样本,MixMatch融合了最小熵原则和一致性正则, 前者最小化模型预测在无标注样本上的熵值,使得分类边界远离样本高密度区,后者约束模型对微小的扰动给出一致的预测,约束分类边界平滑。实现如下
Data Augmentation: 对batch中每个无标注样本做K轮增强(hat{u_{b,k}}=Augment(u_b)) ,每轮增强得到一个模型预测(P_{model}(y|u_{b,k};theta)) 。针对图片作者使用了随机翻转和裁剪作为增强方案。
Label Guessing: Ensemble以上k轮预测得到无标注样本的预估标签
[overline{q_b}=frac{1}{k}sum_{k=1}^{K}P_{model}(y|hat{u_{b,k}}; theta) ]
Sharpening:感觉Sharpen是搭配Ensemble使用的,考虑K轮融合可能会得到置信度较低的标签,作者使用Temperature来降低以上融合标签的熵值,促使模型给出高置信的预测
[Sharpen(overline{q_{i}}, T) = overline{q_{i}}^{frac{1}{T}}/sum_{j=1}^Loverline{q_{j}}^{frac{1}{T}} ]
针对有标注样本,作者在原始Mixup的基础上加入对以上无标注样本的使用。
拼接:把增强后的标注样本(hat{X}) 和K轮增强后的无标注样本(hat{U}) 进行拼接得到(W=Shuffle(Concat(hat{X},hat{U})))
Mixup:两两样本对融合特征和标签得到新样本(X^`,U^`) ,这里在原始mixup的基础上额外约束mixup权重>0.5, 感觉这个约束主要针对引入的无标注样本,保证有标注样本的融合以原始标签为主,避免引入太多的噪声
[begin{align} lambda &sim Beta(alpha, alpha) \ lambda &= max(lambda, 1-lambda )\ x^` &= lambda x_1 + (1-lambda)x_2 \ p^` &= lambda p_1 + (1-lambda)p_2 end{align} ]
最终的损失函数由标注样本的交叉熵和无标注样本在预测标签上的L2正则项加权得到
[begin{align} L_x &= frac{1}{X^`}sum_{x in X^`} CrossEntropy(p, P_{model}(y|x;theta)) \ L_x &= frac{1}{k cdot U^`}sum_{u in U^`}||q - P_{model}(y|u;theta)||^2 \ L & = L_x+ lambda_u L_u end{align} ]
Mixmath因为使用了多种方案融合因子引入了不少超参数,包括融合轮数K,温度参数T,Mixup融合参数(alpha) , 以及正则权重(lambda_u) 。不过作者指出,多数超惨不需要根据任务进行调优,可以直接固定,作者给的参数取值,T=0.5,K=2。(alpha=0.75,lambda_u=100) 是推荐的尝试取值,其中正则权重作者做了线性warmup。
通过消融实验,作者证明了LabelGuessing,Sharpening,Mixup在当前的方案中缺一不可,且进一步使用Mean Teacher没有效果提升。