新智元原创
编辑:Grace,闻菲
【新智元导读】旷视宣布成立上海研究院,由前MSRA资深研究员危夷晨担任负责人。从西雅图、南京、成都到如今的上海,旷视人才招揽计划全面铺开。是什么吸引危夷晨离开供职12年的微软?他将如何带领旷视上海研究院?
今年7月,旷视宣布成立上海研究院,由前微软亚洲研究院(MSRA)资深研究员危夷晨担任负责人。
他在MSRA待了12年,也终于加入轰轰烈烈的计算机视觉创业大军。
近年来,计算机视觉赛道上的竞争已进入白热化,独角兽们的每一个动作都引人注目。去年10月,旷视获得4.6亿美元C轮融资;11月,云从获得5亿人民币B轮融资;今年4月,商汤获6亿美元C轮融资,5月底,又再获6.2亿美元C+轮融资;6月中旬,依图完成2亿美元C+轮融资,7月再获得1亿美元融资。
随着融资规模和公司业务的快速进展,这几家头部公司的发展方向也逐渐成型和清晰。过去一提起旷视,往往等同于“刷脸”。然而,近些年旷视的业务逐渐多元化,进入安防、智慧城市、新零售等领域,全资收购艾瑞斯机器人进军仓储物流,进入手机领域与OPPO、vivo等厂商合作打造智能终端。
曾经,危夷晨并不认为单靠计算机视觉技术就能在市场存活下来,他认为技术只是起点,从技术到产品还有漫长的过程,中间任何环节的失效都可能导致失败。做产品难,做能持续赚钱的产品更难。
然而,人工智能是大势所趋。面对旷视的邀请,危夷晨选择相信自己的感觉。他告诉新智元:“这样一个可能改变职业生涯和行业发展的机会我不能错过。这次的转变应该说是水到渠成吧。”
虽然计算机视觉行业存在一定的炒作和泡沫,但是真实需求是切实存在的。危夷晨认为这是一个前所未有的黄金时代,充满了不确定性和机会,也将造就一大批成功者。
“未来的技术人员也许应该是算法工程师和研究员的混合体,”危夷晨说,“无论个人还是公司,都应该坚持长期投入,乐观并保持谨慎。”
近日,新智元对危夷晨进行了专访,揭秘他和旷视上海研究院背后的故事。
危夷晨是计算机视觉领域的资深专家,发表顶会和期刊论文40余篇。Google scholar论文引用5000余次, h-index 为28。拥有10余项美国专利。科研成果被转化到多个微软产品,包括Xbox Kinect,Windows Hello,Bing, Office, Hololens,Microsoft Cognitive Service,微软小冰等。
微软十二年,科研与产品并重
十二年又称为“一纪”或者“一轮”,对于中国人来说似乎蕴含着某种特别的含义。
回到十二年前的2006年,危夷晨在香港科技大学计算机系读博士,师从权龙教授。毕业后,他加入了如今号称“中国互联网黄埔军校”的微软亚洲研究院,一待就是十二年。
研究院宽松的氛围,丰富的产品应用场景给他带来了全方位的机会:从人脸、手势、人体、车到万物;从识别、检测、跟踪、属性到检索;从图像、视频到3D;从写代码、写论文、写专利、到标数据;从阳春白雪的纯科研、高大上的黑科技产品,到跨公司的合作项目;从单打独斗完成整个项目,到带领团队放手培养年轻人。
他说,“我觉得我比大部分科研人员干过的都杂。这有助于全面发展,挺好的。”新智元记者能感到,他确实乐在其中。
危夷晨十余年的科研工作涉及到多个方向,产生了不少代表性成果,进入到多个微软产品。博士期间,他基于图像的三维头发建模工作发表于图形学顶会SIGGRAPH。他在人脸识别、检测和关键点识别方向的一系列工作,是微软多个人脸应用产品的基础,包括Kinect,Windows Hello等。其中,发表于CVPR 2014的每秒3000帧人脸关键点检测技术,首次能够在手机实时运行,大幅提高了性能和精度,在业界影响巨大。
他在手势识别和跟踪方向耕耘数年,发表于CVPR 2014的工作是第一个能够在PC CPU上实时运行的全自由度手势跟踪系统,启发了该领域后续一系列的工作。
在深度学习时代,危夷晨带领团队发表了多篇高质量论文,包括可变形卷积网络,用于物体检测的关系网络,以及高性能的视频物体检测等,并在COCO 2016和2017中分别获得物体分割任务第一和物体检测任务第三的好成绩。他最近发表于ECCV 2018的人体关键点检测工作在各评测集上均得到最优性能,进一步推动了该方向的发展。
对于技术转化到产品,危夷晨有着超出大部分科研人员的热情。那始于2009年的夏天,他回忆道,“当时,孙剑(注:旷视首席科学家,研究院院长)找到我说,‘Kinect要做人的识别,我们上吧’。那时,Kinect还是内部的秘密项目,叫‘Project Natal’,人脸识别技术还很不成熟,我也没有产品经验。现在想想,可能是无知者无畏吧,我接下了这个前途未卜的任务。”
“没有现成的数据和经验可参考,我们自己拍数据,写算法,每周和西雅图的产品团队开会讨论,共同开发。这段经历和之前的科研完全不同,珍贵而又难忘。8个月后,我们的技术成功进入Xbox,叫做Kinect Identity,传递给了千家万户。这是当年研究院在产品转化上很有影响力的成果,在全院大会上被评为年度最佳项目。让我尤其自豪的是,其中的核心算法代码几乎全是我写的。那种成就感是无以伦比的。从此我意识到,我喜欢干这个。”
此后,危夷晨参与了很多项目,包括一些核心产品的开发,如早期的HoloLens。然而,不少项目却以失败告终。他逐渐意识到,一个好的产品远不止于技术本身。技术只是起点,由此到产品的成功是一条漫漫长路,中间任何环节的失效都可能导致失败。走完这条路要求科研人员拓展自己的思维方式和升级各种技能。在微软的这些年,他在这条路上一直进行着思考和实践。
从市值突破8000亿美元的微软,到加入AI独角兽旷视,接受新的挑战
2014年起,深度学习的大火从学术界烧到了工业界。似乎在一夜之间,计算机视觉的科研人员们变成了香饽饽,在市场上被疯狂争抢。同行们顶着光环纷纷进入新兴市场开疆辟地,这让人无法不动心。
然而,踩过不少坑的危夷晨深知这条道路的艰难和繁荣背后的风险。“在很长一段时间内,我不太相信纯粹靠视觉技术的公司能活下来。做产品难,做能持续赚钱的产品更难。”他对新智元记者这样说道。
然而,这是大势所趋。随着各行业的需求被技术的进步激发,人工智能进入国家战略,燎原之势已成。旷视无疑是这波浪潮中的佼佼者。从最初的云服务,到在金融和安防领域站稳脚跟,再到如今在手机、物流和零售等领域开拓新天地,如今的旷视已经牢牢站在了AI产业的前沿,不仅在技术上领先,在商业模式上也在不断探索,团队也从去年的600人增加到如今过千的规模。
旷视的产品线与商业模式日益丰富 团队越来越大,对于技术和管理人才也是求贤若渴。2018年初,危夷晨接到了旷视科技的邀请,负责新成立的上海研究院。相比大公司的按部就班,充满活力、挑战和机会的旷视,对已有十余年工作经历,渴望突破的他,充满了吸引力。
这次,他选择了相信自己的感觉。
“微软其实是一个少见的优秀公司,最近市值已经突破了8000亿美元。然而,旷视对于视觉领域从业者的吸引力也让人难以抗拒。”危夷晨说:“它有一流的技术,长远的愿景和一大群优秀的人才。这样一个可能改变职业生涯和行业发展的机会我不能错过。这次的转变应该说是水到渠成吧。”他对新智元记者说。
今年七月,危夷晨正式加入旷视,担任旷视上海研究院负责人。
“从大公司高级研究员到创业公司研究院负责人,你会有角色转换的不适吗?”面对新智元的问题,危夷晨回答说,其实这个新角色的不少职能之前在微软的工作中已有体验。他和许多产品组有过合作,也带领团队做出过高质量的科研工作,对于技术产品转化和团队管理有一定经验。
然而,和更加象牙塔的大公司相比,创业公司的研发团队要直面产品的压力,挑战要大得多。
危夷晨说:“我一直致力于解决实际技术问题,创造价值。在新的岗位上,招聘人才,帮助年轻人成长,学习新的产品和商业知识,提高团队沟通和协作能力。这些既是新的挑战,也是锻炼和成长。”
“我做好心理准备了。”
我们处在技术轮回的顶端,需要乐观、谨慎和开放
“当年做3D问题的时候,真想不到能和如今的AI浪潮产生交集。很是奇妙。”这是危夷晨对旷视的3D人脸技术实际落地的新闻在朋友圈的评论。
刚开始读博时,导师告诉他,“计算机视觉就是研究如何从2D到3D”。于是,危夷晨埋头研究了五年的3D问题。然而,工作后他却发现,3D技术的用武之地有限,机器学习技术反而更受青睐。
随着机器学习尤其是深度学习近些年来的发展,现在已经少有研究3D方向的年轻学者了。然而,如今大火的领域,如虚拟/增强现实,无人驾驶,包括最近旷视正在突飞猛进的手机方向,都有对于3D技术的强烈需求,却又面临人才匮乏的窘境。
原来,技术是有轮回的。
在人工智能的大视角下,又何尝不是如此?过去的半个多世纪,人工智能的发展经历了三起两落。前两次的过度炒作和泡沫曾将这个行业打入低谷,而这一次不同以往。对于工业界的现状,危夷晨认为,“仅仅依靠技术和人才就能获得追捧的红利期早已结束。大家都意识到,只有坚持打磨产品,深耕行业,重视落地的公司,才能获得市场的认可。
危夷晨说:“虽然这个行业依然存在着泡沫和炒作,但是大量的需求是真实存在的,技术、计算力和数据这三大核心驱动力也在持续进步。这是一个前所未有的黄金时代,充满了不确定性和机会,也将造就一大批成功者。无论个人还是公司,都应该坚持长期投入,乐观并保持谨慎。”
回到视觉技术本身,危夷晨认为,目前这个领域几乎所有的问题都已被深度学习统治,包括和机器学习几无交集的传统三维几何问题,近年来也呈融合之势。深度学习工具越来越好用,效果也往往不错。这大幅降低了研发人员进入门槛,促进了工业界和学术界的繁荣,却也容易造成研发人员视野的狭隘和能力的局限,尤其容易误导刚刚进入这个方向的年轻人。
他评论道,“不少同学能够熟练的做实验,却缺少分析问题的能力,对于视觉的基础知识如几何,图像处理,传统机器学习等都了解不多,基础不够扎实。遇到问题就是两板斧:调参数和堆数据。这并不利于长期发展。”
在危夷晨看来,未来的技术人员也许应该是算法工程师和研究员的混合体。算法工程师需要能高效运用现有工具和算法满足业务需求,而研究员需要有扎实的底层知识,开放的思维方式和创造新知识的能力。
“切忌把深度学习工具当黑盒子使用,而要去探寻问题的本质”,这是危夷晨对有志于从事计算机视觉科研的年轻人的建议。
旷视布局上海,招聘人才不设上限
新智元记者最后的问题聚焦在了旷视上海研究院的定位和人才需求上。
对此,危夷晨介绍,旷视立志做世界一流的人工智能公司,上海研究院的成立是其布局中的重要一环。上海是全球大都市,具有优质的教育资源,既是长期的人才基地,也有着丰富的产业需求。例如,旷视最近的OPPO手机项目就是在上海完成的。“北京的同事来到上海干活,很辛苦。有个基地的话会好很多。”他笑道。
旷视移动端AI解决方案 那么,上海研究院和之前成立的西雅图、南京和成都研究院有何不同呢?“没有本质的不同,”危夷晨说:“它们都出自于招募人才和扩展业务的需要,同时重视基础科研和公司业务支持,并互相配合。”
“当然,具体做的事情会根据人员情况和业务需求各有侧重,灵活调整。”危夷晨说:“目前,在产品层面,上海研究院侧重于人脸和物体识别的核心技术研究和产品支持,并与北京研究院紧密协作。在科研层面,则没有什么限制。”
关于对人才的期望,危夷晨回答:“在这个年代,技术和产业需求都在迅速发展和变化,很多时候没有经验可循。对于研发人员,我想最重要的素质应该是开放的思维方式,强大的自学能力和追求极致的精神。”
据介绍,旷视上海研究院位于漕河泾开发区,刚刚起步就已经吸引了来自上海交通大学,复旦大学等高校的员工和实习生近10名。对于未来的招人计划,危夷晨表示,“对于有志于投身视觉方向的优秀人才,我们随时欢迎。既需要研究员也需要工程师,不设硬性的门槛。招聘通道长期开放,人数不设上限。”
旷视首席科学家、研究院院长孙剑表示:“目前旷视科技已经有很多来自上海或南方的同学。我们也了解有更多的人才希望在不同风格的城市发展。我们成立上海研究院,希望吸引人才一起来加入人工智能这波技术革命。上海研究院将会是旷视重要的研发力量。我们会在基础科研和产品方面重点和长期的投入。”
了解更多,访问危夷晨个人主页:www.yichenwei.org