无论是去年李开复所言的“AI 泡沫破裂”、Yann LeCun 说的“AI 公司要没钱了”,还是今年张钹院士提出的“深度学习触及天花板”,亦或是图灵奖得主Judea Pearl 直指“AI 现在的重点是曲线拟合,而不是智能”,这些人工智能领域的大牛无一不在表述这样一个观点:人工智能需要冷思考。
“AI 目前可以帮助我们发现一些关联关系,提高生产效率。要使 AI 进一步发挥潜力,就需要提高基础计算引擎的效率。”英国皇家学会院士樊文飞表示,“大数据是 AI 的基础。由于大数据计算的困难性,传统的经典计算理论已经不能够解决大数据的问题,需要新的理论和切实可行的技术”。
图 | 樊文飞(中)与两位博导Scott(左一)和Peter(右一)在英国皇家学会的合影 (来源:樊文飞)
樊文飞是国际学术界公认的在“数据库理论与系统领域都做出突破性贡献的极少数学者之一”。他是英国皇家学会计算机领域唯一的华裔院士(美国科学院计算机领域的华裔院士也只有姚期智一人),是在英国皇家学会具有 300 余年历史的签名簿上用中文签名的第一人。他是数据库领域历史上仅有的两个“大满贯”学者之一,即获得国际数据库理论与系统四大顶级会议的最佳论文奖或十年最佳论文奖 (SIGMOD 2017, PODS 2015 & 2010, VLDB2010, ICDE 2007)。
尽管樊文飞从理论到实践,从学术到科研再到产业,都有丰富的积淀和经验,但是他很少在公共舆论环境中发表意见。据 DeepTech 了解,他已经接受了中国计算机学会(China Computer Federation,缩写“CCF”)的邀请,将出席即将召开的中国计算机大会(China National Computer Congress,缩写“CNCC”)并发表演讲。我们就此和他进行了交流。
理论和系统的突破
“计算机研究的核心是理论和系统。”樊文飞开篇明义。
“打个比方,大家都知道 Google 的阿尔法狗(Alpha Go)打败围棋世界冠军,是人工智能的一个重要里程碑。但大家也应该看到,Alpha Go 背后用到的处理资源的价值是以千万美元计算的,研发团队里面集聚了一大批国际顶级人才,他们的价值更是以亿计算。这样的代价和成本不是一般的企业所能承受的。”
“我们是否可以通过理论的突破到系统的落地,解决大多数企业因资源受限无力从事真正的大数据计算的现实问题?是否可以通过‘把大数据变小’,做到企业无论大小都能享受大数据分析的利益?”
“对此我们提出了有界计算理论(bounded evaluation)及数据驱动的近似计算(data-driven approximation)理论。”
有界计算理论的基本思想是,给定一个函数 F(x),参数 x 代表大数据集。多数计算不需要访问全部的 x、只需要取 x 的一小部分就能得到 F(x)的精确解。有界计算理论研究的就是如何根据不同的函数 F,根据语义找到所需的 x 的那一小部分。
樊文飞说,“一家世界一流的公司通过测试发现,在数十亿条数据的实时查询场景下,91% 的查询可以用有界计算来解决;并在 70% 以上的查询中,查询效率提升 25 倍到 14 万倍。剩余 9% 不具备有界计算条件的查询,可以通过数据驱动的近似计算理论来解决。”
数据驱动的近似计算是根据用户的查询,在数据的层次表述中动态找到所需的数据,并在有限资源下计算查询的近似解。其特点是保证精确度,即对每个精确解,都找到一个对应的近似解使得二者之间的误差在一定范围内,同时每个近似解都对应一个误差范围内的精确解。国际上还没有查询系统能做到这一点。
“比如你要在北京找一个离艺术馆比较近的、价格低于 500 元的旅馆,在资源有限的情况下只能查看一百条数据,那么我们就可以给你一个近似的结果,可能这个旅馆是 520 元,也可能是距离一个美术馆比较近的旅馆,但保证每个近似解都是相关的,而且每一个精确解都能被覆盖到。”
“上面提到的这家世界一流的公司认为,有界计算是一个具有突破性的高潜力发明,并决定每年投资上千万人民币支持开放性的基础研究。”樊文飞介绍,“此外,这项工作还在 2018 年拿了 Royal Society Wolfson Research Merit Award(“英国皇家学会沃尔夫森研究优秀奖”)。”
目前,一支“超级团队”正在做“把大数据变小”这个理论的产业化落地,打造一款从理论到实现都是中国人原创的、具有实时分析能力的下一代大数据系统。这个系统将有界计算和数据驱动的近似计算叠加,突破性解决大数据计算问题,旨在将大数据从科技巨头们的特权普及到各行各业和生活的各个方面。这支团队有一个充满霸气的名字——“数据征服者”(Conquer of Data,简称“CoD”)。据悉,这个系统将在明年发布,CoD 团队将在 CNCC 大会展示区展出其系统原型。
另一个理论到系统的案例是 GRAPE。为提升大规模图数据计算效率,从 2016 年开始,樊文飞着手研究并提出了两个理论:一个是基于不动点计算的单机图算法自动并行化的程序设计模型,另一个是同步/异步自适应并发计算模型。这些理论可以降低并行图计算程序设计的门槛,保证计算正确性,同时可以大幅提升效率。这些工作获得了包括 SIGMOD 和 VLDB 这些行业顶级会议上的三个奖项。
图 | 开发GRAPE的团队 (来源:GRAPE团队)
基于这些理论,樊文飞的学生于文渊博士、徐静波博士等人回国,开发了这套名为 GRAPE 的系统。他们在 2018 年 3 月 5 日成立了公司,同年 3 月 15 日就有知名企业来收购。“我们最终还是选择了一家互联网巨头,因为这家公司承诺为 GRAPE 建立一个开源社区并且打造成一个中国自己的国际 IT 软件品牌。” 据这家公司的材料披露,GRAPE 在社交关系处理、推荐、风控等应用场景都取得很好的效果,在一些业务线上,GRAPE 相比原流程甚至有数量级的性能提升。
提出原创,引领落地
什么是创新?创新包括探索新领域、发现新问题、找到新方法、或者借鉴其他领域的解决方法解决本领域的问题,这是创新程度的一个评判标准。
樊文飞说:“我们所谓的创新,关键不是看你发了多少论文、在哪里发表、引用率有多高。学术地位是由学术界的口碑决定的,是你能否提出基础、原创的东西,能够引领学术界,并在工业界落地。”
他的第三篇论文就荣获了 2010 年 ACM PODS(Principles of Database Systems) 的“十年最佳论文奖”(ACM PODS Alberto O. Mendelzon Test-of-Time Award)。ACM PODS 始于 1982 年,是国际公认的数据库理论顶级会议。时间检验奖旨在奖励在十年间对研究、方法论及实践产生重大影响力的论文。樊文飞是国际上屈指可数的两获 PODS 时间检验奖的学者之一。近四十年里,中国大陆被 ACM PODS 录用的论文屈指可数。
图 |樊文飞是国际上屈指可数的两获PODS时间检验奖的学者之一 (来源:ACM PODS)
他把这次获奖归结于“幸运”。但不能否认的是,坚持原创是他极具前瞻性视野的一个重要条件。他 2000 年发表的半结构化数据约束理论现在已成为一个成熟的研究领域,目前被广泛应用在网络数据语义描述、查询的优化、分析、数据质量提升和数据知识获取、知识图谱的扩展这些业务。
把学生当做合作者
除了学者的身份之外,樊文飞还是一位导师,是爱丁堡大学主任教授。
“我在贝尔实验室工作多年,所以我习惯把学生当做合作者,”他说,“对博士研究生来说,最难的是找题目,还有研究遇到瓶颈。导师应该帮助学生找题目,解决学生做不出的问题。在论文上,我也是合作者,要做出自己的贡献。我的论文中,所有题目都是我提出的,技术难题我都要给出方法解决甚至自己写证明、算法,而且经常要承担大部分写作。我从来没有在我没有做出足够贡献的论文上挂过名字。”
在英国读博需要三年,不像是美国需要四到六年。就教学周期来说,樊文飞有自己的一套方法:“第一年学生帮助实现我们给出的算法,这时候他会发现一些乐趣,尤其是发表了一篇论文之后他会很兴奋,会有做学问的动力;第二年他们开始设计一些算法,他们会想得更深;第三年他们开始领导一个课题,我可以给他们题目,但他们要从头到尾去设计,解决不了的问题再来找我。这样由浅入深,三年的时间只要认真工作,基本就可以独立了。我带学生的办法就是亲身参与,把学生当做合作者。”樊文飞带出来的学生,每人都获得过至少一个数据库顶级会议的最佳论文奖。
樊文飞说:“在爱丁堡大学,七十多岁的老教授在圣诞假期还在学校里自己写论文,他就是喜欢研究,享受这份乐趣,不把研究做为获取名利的手段。所以他们能做出有价值的原创研究。”
追求兴趣、保持热情、坚持原创、锻炼学术头脑的灵活性,把学生当做合作者,这是老一辈学者和优秀导师们身上值得学习的东西。
图 | 樊文飞将在CNCC上带来“Making Big Data Small”的演讲报告 (来源:CNCC大会网站)
在即将召开的 CNCC 大会上,樊文飞将为参会的近八千位计算机领域专家、企业技术人员、高校的科研人员和学生带来“Making Big Data Small”的演讲报告。当被问及他本人最感兴趣的会议话题是什么,他回答说:“今年的一些技术性的论坛我都很感兴趣。我们需要一些介绍最新的学术发展趋势和自己原创的讲座。国家需要脚踏实地做学问的科学家。”
举报/反馈

DeepTech深科技

103万获赞 65.2万粉丝
百度文库精选系列专家号
DeepTech深科技官方账号,鲲鹏计划获奖作者
关注
0
0
收藏
分享