海上院士讲坛｜陶大程：人工智能的深度学习时代

讲坛现场

2019年12月30日，由中国金融信息中心、中国科学院上海分院主办，中科院院士上海浦东活动中心协办，与浙江省新昌县人民政府全程战略合作，中国信息通信研究院华东分院（简称"中国信通院华东分院"）特别支持的"海上院士讲坛"特别专场在中国金融信息中心举行。人工智能和信息科学领域国际知名学者、澳大利亚科学院院士、悉尼大学教授陶大程博士受邀做"走进人工智能探索深度学习"主题演讲。

以下为会议实录：

领导致辞

中国金融信息中心副总裁张凤明

中国金融信息中心副总裁张凤明在致辞中表示，作为新一轮科技革命和产业变革的重要驱动力量，人工智能正在深刻改变世界。上海市委书记李强指出，上海将把发展人工智能作为优先战略选择，主动谋划，加紧布局，密集发力，加快建设人工智能发展的"上海高地"，全力打造要素齐全、开放协同的良好生态。近期，为加快建设上海金融科技中心，市有关部门制定了《关于加快推进上海金融科技中心建设的实施方案》，方案指出要聚焦大数据、人工智能、5G等新技术，推进金融科技核心技术研发及应用。

无论是政策层面，还是应用场景和市场，人工智能已是未来已来。今天我们很荣幸地请到了人工智能和信息科学领域国际知名学者，澳大利亚科学院院士、欧洲科学院外籍院士陶大程为我们畅谈人工智能与深度学习理论，分享前沿观点。

中国金融信息中心是新华社直属机构，是新华社和上海市政府战略合作的成果，服务于上海国际金融中心建设的国家战略，是一个开放、服务、共享、多赢的专业化、国际化平台。上海国际金融中心的建设，背后必然需要信息、知识和智慧中心的支撑，我们举办的众多讲坛、活动汇聚思想、传播声音，为推进上海金融科技中心发声，也希望能为构建人工智能发展的"上海高地"贡献力量。

中国信通院华东分院副院长匡晓烜

中国信通院华东分院副院长匡晓烜表示，现实生活中，人工智能技术正面临着许多待解决的难题，人工智能的应用还存在很大的局限性，它的发展需要政府、学术界、产业界等多方协同，共创共赢。作为由中国信息通信研究院（简称"中国信通院"）、上海市经济和信息化委员会等联合共建的地方政府智库和研发创新平台，中国信通院华东分院正致力于人工智能领域的研究和发展。

中国信通院华东分院这次有幸邀请到陶大程博士出席"海上院士讲坛"特别专场，陶教授作为人工智能和信息科学领域国际知名学者，是澳大利亚科学院院士、悉尼大学教授，在人工智能领域，包括计算机视觉、机器学习、表征学习及相关应用等方面做出了卓越的贡献。2014年陶教授当选IEEE Fellow，2019年当选ACM Fellow。12月30日是一场跨年演讲，希望他在深度学习领域的探索心得将为大家带来启发和思考。

主旨演讲

澳大利亚科学院院士、悉尼大学教授陶大程博士

人工智能和信息科学领域国际知名学者、澳大利亚科学院院士、悉尼大学教授陶大程博士从"什么是深度学习、为什么要深度学习、为什么要使用残差连接skip connections、深度学习中的部分超参的关系、深度神经网络的风险函数的性质、对抗生成网络的重要性、以及未来在伦理道德框架下构建四元融合一体的人工智能系统的重要性"等方面剖析了人工智能与深度学习理论。

什么是深度学习？

我们今天演讲的内容是人工智能中的一个关键技术--深度学习。首先我们探讨一下，什么是人工智能？根据维基百科的解释：人工智能就是机器所展示出来的智能，人工智能的目的是用机器模仿人的智能，那就要求我们理解人的智能。人的智能包括四个方面，Perceiving、Learning、Reasoning和Behaving。所以我们对人工智能期望是：在符合人的伦理道德规范的框架下，能够有效地去实现并且整合这四个方面的智能。

谈到人工智能，目前大家一定会想到的技术就是深度学习。深度学习在今天的机器视觉领域里无处不在，比如上面显示的这张图是我们在2018年的时候做的一个demo的截图,使用我们自己的算法和模型，一年多以前就已经可以做精确的场景分割、实例分割、单目标跟踪、多目标跟踪、人体姿态估计、人脸检测、人脸的特征点检测、人脸的表情分析、年龄估计、性别的识别等,甚至如果我们有每一个人的参考图像，我们还可以识别出每一个人。利用深度学习技术，我们还可以估算出图像中每一个人或者每一个物体到摄像机的距离。

除了从图象和视频中精准的获取这些基础语义信息，深度学习还能处理图像，比如去噪、去雾、去雨、去模糊、超分辨等。这里展示了三张非常模糊的照片，看到这样的图像，我们会很自然的想到这样的问题：为什么照相的时候会产生模糊？过去我们拿到这样的照片，主要考虑如何有效的去除模糊，今天有了深度学习，我们能够想一些更有意思的事情。既然模糊是由于相机运动产生的，那么有运动，我们是不是可以把这个视频恢复出来？是不是可以把场景的光流恢复出来？甚至是不是可以把整个场景的三维结构恢复出来？2019年的CVPR上，我们首次利用深度学习成功的从单张模糊图像中把场景的三维结构恢复出来。

深度学习似乎完全改变了机器视觉研究的基本方案和思路，可以说今天的机器视觉，几乎离不开深度学习。不少人也诟病深度学习没有实质的技术进展，只是传统的神经网络进行了加深。目前的成功应用，主要的贡献来自于大数据、超级计算（或者说是云计算）。有了大数据、有了云计算，才能使得我们今天的深度学习能够训练成功，这一切的原动力很大程度上要归功于产业界的需求、政府的需求、以及我们自身的需求。

深度学习，为什么要深以及其它基本问题

目前的深度学习是不是仅仅是网络层的简单堆叠？它对于机器视觉等领域的贡献到底是什么呢？要深入理解这样的问题，我们需要回到统计学习。

我们知道统计学习涉及训练误差、测试误差和泛化误差。随着模型复杂度的增加，训练误差一定是减小的，但是泛化误差是增加的。所以我们需要找到训练误差和泛化误差的平衡点，保证测试误差尽可能的小。

如果说随着网络层数的增加，泛化误差是增加的，那训练极深层网络的意义是什么？我们也知道训练神经网络的时候，各个公司之前都标榜可以训练更深的神经网络模型。而事实也是，随着网络层数的增加，只要训练得当，测试误差也通常是减小的。这似乎与我们的传统认识是矛盾的：因为越深的神经网络，参数空间越大，模型复杂度也应该越高。传统的统计学习理论认为，参数空间越大，模型复杂度越高，那么它对训练数据的拟合能力就越强，但是泛化能力会变得越差。对于一个机器学习模型，如果它的训练误差远小于测试误差，那么它就发生了过拟合。因此，在现有的统计学习理论框架下，对于神经网络，有两个尚未解决的问题：首先，为什么模型复杂度非常高的深度神经网络，不会发生过拟合？其次，深度神经网络是越深越好吗？我们最近的研究有三个观察（"An Information-Theoretic View for Deep Learning"）：

和传统的浅层学习模型（例如，SVM）不同，深度神经网络具有层级的特征映射结构。神经网络的这种层级的结构是否是在模型复杂度很高的情况下，避免发生过拟合的关键呢？我们的工作肯定地回答了这个问题：层级结构是深度神经网络泛化能力的关键保证。

1、传统的泛化误差上界，都是通过模型的函数空间的复杂度来估计的，例如VC维，Rademacher复杂度。这种估计忽略了数据分布，考虑模型的函数空间里最坏的情况。因此泛化误差上界的估计对于函数空间很大的深度模型会非常松，而因此不再适用，而实际情况下，模型的泛化能力是和数据分布相关的。受到最近的一些在信息论和自适应数据分析的工作的启发，我们可以用神经网络学到的特征T_L和最后一层网络的参数h的互信息，来作为泛化误差的上界。直观地来讲，网络的输出对于输入的依赖性越小，其泛化能力越强。

3、受到信息论中数据处理不等式的启发，只要网络每一层的映射不是可逆的，例如使用了Relu激活函数，卷积和池化，网络所学到的特征和最后一层参数的互信息都会随着层数的增加而减少。因此，网络越深，模型的泛化能力越强。但是随着网络层数的增加，在映射过程中可能会丢失对于数据拟合的有用的信息，这种情况下，在训练集上的拟合误差会变大。因此，网络越深泛化能力虽然随着层数增加变得更强，但是要想整个网络性能好，是建立在对训练数据的拟合误差很小的情况下。

我们的主要结论是这样一个泛化误差的上界，假设网络的层数为L，那么其泛化误差会随着层数的增加而指数衰减。当然这里还有一些假设，比如不能有skip connections。深入理解深度学习的价值和意义，还需要大家付出更多的努力。但是目前的结论已经让我们有足够的信心，坚定深度学习这个大方向。

那么残差链接skip connections有什么样的作用呢？残差连接已被众多实验证明，可以显著降低神经网络的训练难度，且不会降低神经网络的泛化能力。我们的工作"Why ResNet works? Residual generalize"（TNNLS 2020）使用covering number、Rademacher复杂度等理论工具，给出了ResNet的假设空间复杂度和泛化误差的上界。这些结果进而和链状网络的结果进行了比较。比较显示，引入残差连接不会增大神经网络的假设空间复杂度，进而不会降低神经网络的泛化能力，从而从理论方面验证了现有的实验结果。这样的分析具有相当的普适性，可以用于深入理解ResNeXt、DenseNet、U-Net等目前常用的网络结构。

神经网络的训练过程极端依赖超参数的设置。我们的工作"Control batch size and learning rate to generalize well: Theoretical and empirical evidence"（NeurIPS 2019）从理论和实验两个角度，研究学习率和批量规模对神经网络泛化能力的影响。在理论方面，我们使用Ornstein-Uhlenbeck过程和PAC-Bayes 理论得到了神经网络的泛化误差上界。该上界表明，神经网络的泛化能力和学习率与批量规模的比值负相关。在实验方面，我们在相同数据集上，基于相同网络结构，用不同的学习率和批量规模训练了1600个网络。这些网络的测试精度被划分为164组进行了斯皮尔曼秩相关检验，实验结果充分验证了上述提到的相关关系。

理解神经网络风险函数的几何性质对研究神经网络的表示能力、优化性质、泛化性质都非常重要。然而损失曲面（风险函数所对应的曲面）的几何结构极端复杂，鲜有理论工作进行了精确地刻画。曾有工作建议，可以把线性网络（激活函数全部线性的神经网络）损失曲面的几何性质推广到一般网络。例如，线性网络中，所有局部最优点都同样地好，它们都是全局最优点。我们的工作"Piecewise linear activations substantially shape the loss surface of neural networks"（ICLR2020）指出，往线性网络中引入非常常见的分段线性激活函数（例如，ReLU 和 Leaky-ReLU），可以显著改变损失曲面的几何性质。具体来说，我们得到了以下几个结论：

1、损失曲面存在无穷多局部最优点劣于全局最优点（这些局部最优点又叫"谬点（spurious local minima）"）；

2、极端不可微且非凸的损失曲面被不可微的边界划分为若干几何性质良好（光滑、多线性）的"细胞"；

3、在每一个细胞中，所有局部最优点都同样好，它们都是细胞内的全局最优点；

4、有无穷多的谬点分布在同一个细胞中，它们连在一起，构成一个联通的"山谷"；

5、线性网络的损失曲面也包含在上述理论之中，对应了单细胞的情形。

今天的深度学习，和过去传统的机器学习或者统计学习，有很好的纵向对比关系。基于统计学习的系统：拿到原始数据之后我们先抽特征，然后是数据降维，最后做分类。这三个步骤的目标往往是不一致的，比如分类的目标是不同类的样本的边界最大化、降维的目标是保持数据网差、特征提取是根据数据的一些属性进行设计的。

过去我们没有考虑到如何把特征设计、数据降维和分类的目标一致化，因为特征的设计完全是基于人的经验，非常的复杂。深度学习把特征提取、数据降维和分类整合到了一个网络框架下，因此这三个步骤的目标都一致了，并且通过数据驱动的方式，深度学习在一定程度上可以减少人对问题的偏见，但是也同时引入的数据对问题的偏见。这也要求我们在构建训练数据集的时候，要从不同角度考虑问题，减少偏见。

对抗生成网络的重要性

学习和操控现实世界数据（如图像）的概率分布是统计和机器学习的主要目标之一，而近些年提出的深度生成对抗网络（GAN）就是学习复杂数据概率概率分布的常用方法。

GAN网络一经提出就引起了学术界和工业界的广泛关注，这是因为这个学习框架在许多生成相关的任务上取得了令人信服的表现，例如图像生成，图像"翻译"和风格变换。但是，现有算法仍面临许多训练困难，例如，大多数GAN需要仔细平衡生成器和判别器之间的能力。不适合的参数设置会降低GAN的性能，甚至难以产生任何合理的输出。根据我们的观察，现有生成对抗网络的训练函数具有不同的优点和缺点，其预定义的对抗优化策略可能导致生成对抗网络训练时的不稳定。受自然演化启发，我们设计了一个用于训练生成对抗网络的演化框架。在每次迭代期间，生成器经历不同的突变以产生多种后代。然后，给定当前学习到的判别器，我们评估由更新的后代产生样本的质量和多样性。最后，根据"适者生存"的原则，去除表现不佳的后代，保留剩余的表现良好的发生器并用于进一步对抗训练。

基于的进化模型的生成对抗网络克服了个体对抗训练方法所存在的固有局限性，极大的稳定了生成对抗网络的训练过程病提升了生成效果。实验证明，所提出的E-GAN实现了令人信服的图像生成性能，并减少了现有GAN固有的训练问题。

构建四元融合一体的人工智能系统

最近自动机器学习得到了大家的广泛关注，并且有人说自动机器学习以后，就没有必要让人来设计神经网络了，听起来特别的震撼。当然也是恐慌，感觉即使没有相关的基础知识和对于问题的深入理解，只要有大型计算设备和相关的数据，我们都可以构建高效的人工智能系统。但目前对于一个具体的实际问题，我们还没有办法完全依靠自动机器学习来构建人工智能系统，对于问题本身、机器视觉、统计学习等相关方面的深入理解，是我们目前搭建高效人工智能系统的根本。

另外，过去我们基本上是独立的研究Perceiving、Learning、Reasoning和Behaving这四个方面，包括如何考虑人工智能伦理道德的约束。未来，我们需要在伦理道德框架约束下研究人工智能的四个方面，需要有效的整合这四个方面。这样的综合模式(在伦理道德框架约束下的perceiving、learning、reasoning、behaving功能的综合体)能够帮助我们实现在特定环境下的高效的人机混合系统或者无人系统。

主持人：中国金融信息中心吴天宇

文字：白伊美、吴天宇

图片：陈奕屹

统筹：李志琴、吴天宇

部分图片由中国信通院华东分院提供

本文来源：陆家嘴金融网

举报/反馈

新华社客户端

1482万获赞 222.4万粉丝

新华社权威发布，在此看国社新媒体资讯。

新华社客户端官方账号

关注