港科大教授权龙：计算机视觉下一步将走向三维重建

雷锋网按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳召开，峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，得到了宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，旨在打造国内人工智能领域最具实力的跨界交流合作平台。

CCF-GAIR 2018 延续前两届的“顶尖”阵容，提供1个主会场和11个专场（仿生机器人，机器人行业应用，计算机视觉，智能安全，金融科技，智能驾驶，NLP，AI+，AI芯片，IoT，投资人）的丰富平台，意欲给三界参会者从产学研多个维度，呈现出更富前瞻性与落地性相结合的会议内容与现场体验。

大会第二天的计算机视觉专场，香港科技大学教授，ICCV 2011主席，IEEE Fellow权龙教授作为开场嘉宾，发表题为“计算机视觉, 识别与三维重建”的精彩演讲，点燃了现场气氛。

权龙教授主要从三个方面进行阐述，分别是计算机视觉的基础、计算机视觉的变迁与发展，以及计算机视觉最新的进展。

他谈到，当下因为深度学习技术的发展，人工智能变得非常火热，计算机视觉作为人工智能的一个领域，也变得异常火热。

不过目前计算机视觉的研究和应用主要集中在“识别”，“识别”只是计算机视觉的一部分。如果要去做一些交互和感知，必须先恢复三维，所以在识别的基础上，下一个层次必须走向“三维重建”。

针对这个领域，权龙教授和他的研究团队已经做了诸多的工作并取得了一定的成绩，在 4 月份，他们拿下了两个计算机视觉榜单的全球第一。

当然，目前在深度学习推动下的计算机视觉技术还有很多不足和挑战，需要更多业内研究者不断去探索，特别是在卷积神经网络在高维度空间的理论理解与解释。

以下是权龙教授的演讲全文，雷锋网做了不改变原意的整理与编辑：

感谢大会主办方的邀请，今天我想跟大家分享计算机视觉中的识别和三维重建问题。

我今天的演讲分为三部分：首先讲一下计算机视觉的基础，然后介绍它的变迁与发展，最后再谈谈它的最新进展。

计算机视觉的源起

什么是人工智能和计算机视觉？人工智能的目的是让计算机去看、去听和去读。图像、语音和文字的理解，这三大部分基本构成了我们现在的人工智能。而在人工智能的这些领域中，视觉又是核心。大家知道，视觉占人类所有感官输入的80%，也是最困难的一部分感知。如果说人工智能是一场革命，那么它将发轫于计算机视觉，而非别的领域。

2012年是非常重要的一年，我在标题中称之为“a year of no significance”。这一年看似平凡，却发生了很多事情。2012年，在一个叫CVPR的计算机视觉顶级会议上发生了一件看似重要，但也不那么重要的事情。那就是一个叫ImageNet的比赛，它把图像识别准确率从75%提高到了85%，引发了一系列（人工智能）热浪。

再把时间回溯到1998年，当年有了卷积神经网络，它是今天所有卷积神经网络的鼻祖模型。它有几个特点，首先它输入的图像比较小，只有32*32pixel；其次它没有GPU，这正是它计算力比较弱的原因。

2012年，卷积神经网络复活，我们称之为AlexNet。和上一阶段相比，它的内部结构基本一模一样，变化非常小，但输入的尺寸不一样。1998年的模型，输入尺寸为32*32pixel，且只有一个通道。新的模型输入尺寸已经扩大到了224*224pixel，而且有三个通道。最关键的是里面有了GPU，它当时训练时用了两块GPU。

从1998年到2012年，中间经历了10多年，卷积神经网络的架构还是一样的，那么它内部发生了哪些变化？有两点非常重要：一、英伟达研发了GPU，GPU最早是为游戏而不是人工智能诞生的；二、华人学者、斯坦福大学教授李飞飞创建了ImageNet，她把几百万张照片发到网络上并发动群众做了标注。

6年后的今天又发生了哪些变化呢？2012年训练AlexNet模型需要使用两块GPU，花费6天时间；今天做同样的事情只需要一块DGX-2，十几分钟就能搞定。

再看看学术会议。CVPR以前是一个一般的学术会议，只有几百人参与。今年，我们刚从盐城湖回来，参会群众规模已经达到了6500人，基本实现了10倍增长。我们有幸将于2022年在新奥尔良组织这个会议。相信到时候将有上万人参加，我们需要担忧的是哪里能找到可容纳这么多人的场地。

什么是计算机视觉？计算机视觉的本质是对图像进行理解。“理解”这个词没有准确的定义，事实上计算机无法做到“理解”，只能做到认知。计算机视觉的终极目的就是达到认知。我们研究计算机视觉的目的是得到视觉特征，有了视觉特征才能开展一系列的工作。

为什么视觉特征如此重要？在语音识别领域，语音的特征已经定义得非常清晰——音素。但如果我们拿来一个图像，问它最重要的视觉特征是什么，答案并不明确。大家知道图像包含像素，但像素并不是真正的特征。像素只是一个数字化的载体，将图像进行了数字化的表述。计算机视觉的终极目标就是寻找行之有效的视觉特征。

计算机视觉包含两个基本应用——识别和重建。它们的英文单词都以“re”做前缀，说明这是一个反向的问题。

计算机视觉发展简史

我们简单回顾一下计算机视觉的发展历史。上世纪70/80年代，计算机视觉有了最初的发展。那个年代，基本所有的计算机视觉研究都以Marr的primal sketches为理论依据。它的可计算数学模型都是以edges为主的边缘提取。有了edge之后，再把它高层化后的线段元做简单的统计分类或者三维重建。Edge在数学上是很好定义的，我们定义了很多优化准则后，这个研究方向就到头了。

90年代到2000年，行业内有一些变化，大家从edge回过头来研究几何问题。几何就是三维重建，一维的edges不适合做计算。几何最本质的元素是点，它是二维的，更内在。这推动了很多研究工作以点为基础展开，对点做描述，也就是feature descriptors。这对推动计算机视觉发展产生了重要作用。

从识别方面来看，有了feature descriptors就可以把很多东西变成矢量的无序集合，然后再去做统计。当时最成功的是三维重建，所谓成功也只是把一些点从二维变成三维，没有真正语义上的描述。这是1990-2000年间的发展。

2012年开始，我称之为CNN时代。这时候视觉领域开始发生变化，从特征到识别算法基本都被CNN一统。CNN现在已经很强大了，基本所有计算机视觉论文都会提到它。CNN的好处在于，它是端到端的，比较容易实现。

给大家讲一个趣闻，90年代计算机视觉如日中天的时候，卷积神经网络还沉浸在痛苦中无人理睬。机器学习、计算机视觉和语音识别领域的人都忽视它。

2012年，AlexNet在重要会议上只能参加一些边缘比赛，不能进入主会场。那个年代，如果你的论文中提到CNN，估计会直接被拒；但今天你的论文如果不提CNN，就非常难入围。

今天计算机视觉中的识别技术基本是端到端的，从1998年的LeNet到2012年的AlexNet，再到2016年ResNet。目前ResNet已经非常成熟，谷歌给出了开源标准ResNet50，只需要把数据丢进去训练即可。

今天，如果你能清晰地定义问题，做好数据标定，这个问题基本就解决了。哪怕找一个高中生把它输入Net也能得到非常好的结果。让计算机学习图片之后，再给它展示一张它之前没见过的图片，一般它也能识别出来，水平基本与人类一致，甚至高于人类。因为人类有时会不小心犯错，但机器记忆或学会了之后便不会犯错。这些成果都是基于深度神经网络取得的。

但也不能忘记，这种东西有很大的局限，它并不是真的很聪明，只是记住了很多样本。你也可以说它很蠢，因为它根本不知道自己在做什么。一切取决于你的标准，如果你把一个东西标注成cat，它就认为这是一只猫，明天你再把它标注成dog，它就认为这是一条狗。所以它并没有真正理解，只是在做简单的统计分类。人类可以把狼和狗归为同类，也可以把萨摩耶和白狼区分，这些都是主观的，取决于我们如何定义问题。我们如何定义，机器就给出什么样的答案，它本质上没有自己的认知。

卷积神经网络能够识别图像只是表象，我们应该回归本质——计算机视觉。计算机视觉是对视觉特征的寻求和探索。CNN本质上是重新学习和定义了我们以前寻找的视觉特征。以前的视觉特征是手工定义的，维数不会太高，有几十、几百就已经比较高了，毕竟人类能力有限。卷积神经网络学习的视觉特征维数更多，动辄上百万，而且是有结构的。

下一步将走向三维重建

现在每个人都在研究识别，但识别只是计算机视觉的一部分。真正意义上的计算机视觉要超越识别，感知三维环境。我们活在三维空间里，要做到交互和感知，就必须将世界恢复到三维。所以，在识别的基础上，计算机视觉下一步必须走向三维重建。

三维重建中包含深度、视差和重建三个概念，它们基本等价。使用哪个词汇取决你处在哪个群体。

人类有两只眼睛，通过两只眼睛才能得到有深度的三维信息。当然，通过一只移动的眼睛，也可以获得有深度的信息。

获取深度信息的挑战很大，它本质上是一个三角测量问题。第一步需要将两幅图像或两只眼睛感知到的东西进行匹配，也就是识别。这里的“识别”和前面有所不同，前面提到的是有标注情况下的识别，这里的“识别”是两幅图像之间的识别，没有数据库。它不仅要识别物体，还要识别每一个像素，所以对计算量要求非常高。

双目视觉非常重要，哺乳动物都有双目视觉，而且智商越高，双目视线重叠的区域越大。马的眼睛是往两边看的，这并不代表它没有双目视觉，只是双目视线重叠的范围比较小。鱼也是如此。

由此可见，现代三维视觉是由三维重建所定义的。CNN诞生之前，它的主要动力源于几何，因为它的定义相对清晰。

计算机视觉中的三维重建包含三大问题：一、位置。假如我给出一张照片，计算机视觉要知道这张照片是在什么位置拍的。二、多目。通过多目的视差获取三维信息，识别每一个像素并进行匹配，进行三维重建。三、语义识别。完成几何三维重建后，要对这个三维信息进行语义识别，这是重建的最终目的。

2012年之前，计算机视觉中的三维视觉已经得到了显著发展，那么新的深度学习对它有哪些启发呢？三维视觉本质上也是一个“识别”的问题，深度学习让它在识别方面得到了强化。视觉中的特征非常重要，以前的几何做法一般是用手工特征。CNN的重要之处不在于它能识别一只猫或一条狗，而在于它学会了很多视觉特征，我们可以拿这些特征做图像之间的识别和匹配。

识别方面，现在我们面临比过去更大的挑战，因为现在的数据量比以前更多。以前是几十幅、上百幅，现在动辄几十万、上百万幅。这就涉及到计算机规模化的问题，规模化意味着分布式，这也是一个重要课题。

前面提到双目和多目视觉，这个领域也有很多发展。以前是传统的方法，现在所有stereo方法都可以重新回到卷积神经网络的框架下。它的卷积不是简单的在图像里，而是在更高维的视差空间进行的。这个领域发展得非常快。

Altizure三维重建开放云平台

下面宣传下我们做的工作。我在科大的团队创立了一家公司altizure，我认为我们的三维重建做的最出色。Altizure是一个公共云平台，大家可以用手机或无人机拍照然后上传，就可以自动得到一个三维模型。我们的终极目标是把世界上的所有东西全部三维复现。我们生活在三维的环境里，所以要把所有东西全部恢复到三维。

今天的世界是数据为王，我们通过这个开放平台收集了很多数据，并进行标注。有了这样一个平台，今后的算法会越来越强大。

我们研究的领域现在每天都在发生变化。我们团队今年4月份在两个重要榜单上名列第一，一个是三维点云，另一个是场景识别。

计算机视觉的机遇与挑战

深度学习浪潮下，计算机视觉面临哪些机遇和挑战？UCLA一位做统计的教授认为，现在的深度学习跟以前差不多，只是模拟了一个曲线或曲面，只是维度更高一些。另外一个学者Piekniewski也提出了质疑。2012年时AlexNet有6000个参数，今天我们已经可以学习比它多1000倍的参数，这是否意味着我们的能力提升了1000倍？其实不是，我们的改进仍然是非常边缘的。

我的观点是，毫无疑问，CNN是一个非常强大的工具，但关于它我们还有很多不清楚的地方。CNN处理的是非常高维的数据，以前几十、几百个维度就已经高不可攀了，但今天是几百万、几千万个维度。高处不胜寒，即便研究数学的人也不太清楚中间发生了什么。这些还需要一段时间去理解。

再来说说“理解”这个词，其实我们也不很清楚什么样才叫做理解。如果要做到真正理解，就要对世界和环境进行有结构、有逻辑的描述，但我们现在没有任何结构，完全是由数据带动，只有输入和输出。

最后简单总结一下。早在80年代人工智能就很火，我研究生第一志愿报的就是人工智能。当时并不理解人工智能是什么，后来才慢慢明白，世上本无人工智能，只有图像识别、计算机视觉、语音识别、自然语言理解等一个个具体的问题。

我们必须肯定这些年来取得的成绩，尤其硬件领域的发展非常可观。GPU已经在手机、电脑中普及，使得我们拥有非常强大的计算能力。以前相机是摄影师才有的，现在人手一台手机，随时随地可以拍照。甚至还有了无人机，可以从天上拍照。

我们非常荣幸能在计算机视觉领域工作，这个领域发展很快，在中国大地上也很有前景。举两个例子：一、旷视在人脸和物的识别方面世界领先，类似的公司在中国还有很多；二、Altizure三维重建视觉平台在全世界也是独一无二的。

从广义的人工智能来说，我不认为它有多大的发展，但我们也不能否认存在真正的进步。

举报/反馈

雷峰网leiphone

173万获赞 16.5万粉丝

雷峰网——关注智能与未来！

鲲鹏计划获奖作者

关注