行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 机器学习 > 正文

深度学习三大谜团:集成、知识蒸馏和自蒸馏

集成(Ensemble,又称模型平均)是一种「古老」而强大的方法。只需要对同一个训练数据集上,几个独立训练的的输出,简单地求平均,便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同,即使拥有相同的架构,集成方法依然能够将性能显著提升。
 
但是,为什么只是简单的「集成」,便能提升性能呢?

 

 
目前已有的理论解释大多只能适用于以下几种情况:
(1)boosting:模型之间的组合系数是训练出来的,而不能简单地取平均;
 
(2)Bootstrap aggregation:每个模型的训练数据集都不相同;
 
(3)每个模型的类型和体系架构都不相同;
 
(4)随机特征或决策树的集合。
 
但正如上面提到,在(1)模型系数只是简单的求平均;(2)训练数据集完全相同;(3)每个模型架构完全相同 下,集成的方法都能够做到性能提升。
 

 

论文链接:
https://arxiv.org/pdf/2012.09816.pdf
 
来自微软研究院与优化组的高级研究员朱泽园博士,以及卡内基梅隆大学机器学习系助理教授李远志针对这一现象,在发表的论文《在中理解集成,知识蒸馏和自蒸馏》(Towards Understanding Ensemble, Knowledge Distillation, and Self-Distillation in Deep Learning)中,提出了一个理论问题:
 

 

 
当我们简单地对几个独立训练的神经网络求平均值时,「集成」是如何改善深度学习的测试性能的?尤其是当所有神经网络具有相同的体系结构,使用相同的标准训练(即具有相同学习率和样本正则化的随机梯度下降),在相同数据集上进行训练时,即使所有单个模型都已经进行了100%训练准确性?随后,将集合的这种优越性能「蒸馏」到相同架构的单个神经网络,为何能够保持性能基本不变?
 
两位作者分别从理论和实验的角度给出了分析结果:
 
原因在于数据集中「多视图」(Multi-view)数据的存在。
 

 

 
朱泽园(Zeyuan Allen-Zhu)
 
朱泽园博士目前就职于微软总部 AI 研究院。南京外国语毕业,高一保送清华;2005、2006两年蝉联IOI推荐,2009年ACM总决赛亚军;清华毕业后在MIT读完硕博,后在普林斯顿进修博士后。
 

 

 

 

 
李远志(Yuanzhi Li)
 
另一位作者李远志,现任美国卡内基·梅隆大学(CMU)机器学习系助理教授,也是微软研究院的访问研究员。他于2010年到2014年在清华姚班进行本科学习,于2018年在普林斯顿大学获得博士学位,在斯坦福大学做了一年博士后之后,加入CMU担任助理教授。其研究方向主要为深度学习的基础理论与实践,凸优化算法与非凸优化算法设计,数据处理算法分析等。
 

 

 
01、深度学习的三大谜团
谜团 1:集成
观察结果显示,使用不同随机种子的学习网络
微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2026 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

扫码入群
扫码关注

微信公众号