深度学习三大谜团：集成、知识蒸馏和自蒸馏

集成（Ensemble，又称模型平均）是一种「古老」而强大的方法。只需要对同一个训练数据集上，几个独立训练的的输出，简单地求平均，便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同，即使拥有相同的架构，集成方法依然能够将性能显著提升。

但是，为什么只是简单的「集成」，便能提升性能呢？

目前已有的理论解释大多只能适用于以下几种情况：

（1）boosting：模型之间的组合系数是训练出来的，而不能简单地取平均；

（2）Bootstrap aggregation：每个模型的训练数据集都不相同；

（3）每个模型的类型和体系架构都不相同；

（4）随机特征或决策树的集合。

但正如上面提到，在（1）模型系数只是简单的求平均；（2）训练数据集完全相同；（3）每个模型架构完全相同下，集成的方法都能够做到性能提升。

论文链接：

https://arxiv.org/pdf/2012.09816.pdf

来自微软研究院与优化组的高级研究员朱泽园博士，以及卡内基梅隆大学机器学习系助理教授李远志针对这一现象，在发表的论文《在中理解集成，知识蒸馏和自蒸馏》（Towards Understanding Ensemble, Knowledge Distillation, and Self-Distillation in Deep Learning）中，提出了一个理论问题：

当我们简单地对几个独立训练的神经网络求平均值时，「集成」是如何改善深度学习的测试性能的？尤其是当所有神经网络具有相同的体系结构，使用相同的标准训练（即具有相同学习率和样本正则化的随机梯度下降），在相同数据集上进行训练时，即使所有单个模型都已经进行了100％训练准确性？随后，将集合的这种优越性能「蒸馏」到相同架构的单个神经网络，为何能够保持性能基本不变？

两位作者分别从理论和实验的角度给出了分析结果：

原因在于数据集中「多视图」（Multi-view）数据的存在。

朱泽园（Zeyuan Allen-Zhu）

朱泽园博士目前就职于微软总部 AI 研究院。南京外国语毕业，高一保送清华；2005、2006两年蝉联IOI推荐，2009年ACM总决赛亚军；清华毕业后在MIT读完硕博，后在普林斯顿进修博士后。

李远志（Yuanzhi Li）

另一位作者李远志，现任美国卡内基·梅隆大学（CMU）机器学习系助理教授，也是微软研究院的访问研究员。他于2010年到2014年在清华姚班进行本科学习，于2018年在普林斯顿大学获得博士学位，在斯坦福大学做了一年博士后之后，加入CMU担任助理教授。其研究方向主要为深度学习的基础理论与实践，凸优化算法与非凸优化算法设计，数据处理算法分析等。

01、深度学习的三大谜团

谜团 1：集成

观察结果显示，使用不同随机种子的学习网络