干货 丨蓦然认知:对话即应用-自然语言交互的挑战及未来

科技探索者的未来

百家号17-05-0602:26

蓦然认知是一家以认知计算为核心的人工智能公司,拥有领先的智能交互及决策引擎Mor,可用于手机助理、智能车载、智能家居等。戴帅湘是蓦然认知的CEO,曾是前百度主任架构师,曾长期担任百度Query理解方向负责人,是自然语言理解方面的技术专家,曾荣获第一个也是迄今为止唯一一个以NLP技术为核心的百度最高奖。

蓦然认知CEO戴帅湘出席了由葡萄创投主办的2017春季人工智能产业峰会,并做《对话及应用-自然语言交互的未来及挑战》主题演讲,在之后的创新论坛上与众多行业大咖进行深度交流,全面阐述了蓦然认知的智能交互决策引擎Mor基于DAAA理念的商业价值和技术价值。

以下为戴帅湘演讲实录:

一、自然语言交互

我们公司面临全新的时代,我把它称之为对话即应用的时代。今天我会给大家分享一下,在这样一个新的时代里面像我们这样的公司面临的是什么样的一个机遇和挑战?

人机交互的发展

人机交互发展的历史主要分为四个阶段,它整体的一个过程可以用持续解放双手这样一句话来描述。回顾过去10年、20年我们可以发现,最初我们使用的是键盘、鼠标的过程,然后到移动互联网时代,我们开始用单手来操作屏幕,可以用点击滑动的方式来驱动手机的运行。然后到现在这个时代,我们很可能会进入一个全语音交互的时代,在这样一个时代很可能你不再需要键盘,不再需要鼠标,甚至你的双手可以完全解放出来。

应用形态演变

在这样一个时代,所有应用软件发生很大的一个变化,但是人机交互的发展利用软件形态也会进一步的演变,这其中也可以分为一个标志性的阶段。如果把应用程序也当做一种资源的话,我们可以这样来考虑,就是说这样的资源它从20年代,实际上是一种相对比较分散,然后逐步去集中,从无结构化的状态逐步转化为有结构化的状态。从用户的角度来看,它是从低效到高效逐步转变的过程。

在PC时代大部分是用网页来实现,移动互联网时代,我们可以看到整体的资源集中,APP化的形式会变得非常有利,而且APP本身的出现,其实很有利于各个厂商保护自己本身的内容和服务。然后如果一旦我们进入语音交互的时代,所有的一切都可能发生很大的变化。

我们可以想象一下,如果所有的设备所有的交互都非常自然流畅的话,那么应用程序本身的表现形式其实变得不那么重要,不管是网页也好,它是APP也好,其实很多形式都消失了,人类边界也可能没有了。那这个时候,所有的业务呈现的形式很可能是API的一种表现形式。

对话即应用

在这样一个时代,我们怎样应对呢?我们把整个这个时代称为对话即应用,它主要阐述的是应用软件本身发展的一个历程所导致的结果,但这样结果它也会带来全新的商业模式。

特征:

第一:自然对话主导交互,用户界画弱化甚至消失。也就是说我们可能进入全语音的交互方式。

第二:服务API化,无须安装,其获取使用成本大大降低。

第三:不同场景下的服务自然融合,用户使用效率大大提升。

最重要的一点,服务商品化,有偿服务变得普及,高质量的服务会得到用户的付费,这样商业会回归到最本质的时代。我觉得到服务API化,全语音交互时代的话,有可能商业回归到本质上,就是所有的业务程序开发商也好,服务提供商也好,它专注的是提升自己数据和算法的质量,而不再是说做很多花哨的,擦边球的东西。

二、面临的挑战

Mor就是基于此理念打造的新一代交互及决策引擎,我会整体阐述一下如果要设计和制造这样一个引擎,它所面临的几大技术挑战。整体来说这个引擎它本质上是一个系统化的工程,需要面临三个大的挑战。

自然语言理解

自然语言理解。顾名思义,就像机器理解人类的语言,理解语言其实本质上理解语义。从这个角度出发,语义该如何表示?它本身是从简单到复杂,我把这个过程称之为组合性,组合性其实是模型的生成能力。通过组合性生成的东西并不是好的东西,这个时候我们需要另一个特性因果性,它保证生成的方向是我们正确的方向。

语义理解是不是可以用现有的深度学习来做呢?我们可以看到图像识别或者说语音识别是一个非常适合深度学习来建模的过程,它主要是端到端,是个黑盒,从X到Y的过程。语义是一个有目的,有规划的过程,它需要每个过程的推理,以及它之间的逻辑关系非常非常清晰,这样的模型其实深度学习,至少现阶段的深度学习它不是非常非常合适。

什么样的模型能够很好的描述语义这样一个过程呢?其实有一种框架比较适合做?我们现在可以说是生成模型,你要对有步骤,有计划的这样一个东西建模的话,它不是一个像深度学习这么通用的一个框架,你可以套用这个框架,可以用大量的数据来拟合现在的过程,但它只是一个框架。

学习与决策

学习与决策,要做到这样一个明确的决策,让机器来辅助人完成任务,它比较需要两个原则,第一是记忆第二是学习,这跟人非常相像是吧。记忆的角度,一种是短期记忆,一种是长期记忆,短期记忆囊括的是人和机器交互过程当中产生的是用户画像。短期记忆是我下一句话的时候联想上一句话,这个非常重要,我刚才去了什么地方?要去什么地方?这种很有关联性的,这种在对话系统是通过语音描述过来的。

长期记忆是和整体决策相关,与记忆相对是学习过程。一个是迁移学习,阐述的是说我如果在单个产品做模型的建模,我在另外一个产品里面是不是能够用上?如果你在单场做的非常透彻,或者说效果非常或,但是如果它不能移植到另外一个产品的话,它就会变得无法有效的进行学习。

然后是增强学习,增强学习本质上是有实时学习过程,就像人和人的对话,我们可以通过互相的对话博弈来快速了解这个人的性格,这个人的目的。它会实时变化参数,以便对话更加通畅。

自动对接服务

自动服务的对接,服务对接很容易理解,所有对话系统也好,它需要大量服务的支持,但是我今天强调的是自动这个含义。如果我们有非常非常多的服务需要很多的空间对接的话,这个工作量非常巨大,你推出一个机器人,你只有提供两三种服务,如果你能提供两三千种服务,我觉得这个意义非常大了。这个时候设立一种自动的扫描接口,并且能够自动包装接口,这样一个自动对接的模式是非常重要的。从某种意义上它仅次于自动编程的方式,它是可拔插式的,它不需要花很长时间去定制开发,而是快速的切入。

三、对话交互的误区

多轮对话轮次越多越好?

做多用户交互的这样一个通话,它目的是快速帮助完成任务,所以轮次这个事情如果针对不同的人,比如说我很干脆,我可能一句话把所有任务说清楚。有些人很啰嗦,或者很犹豫,他需要4、5句话来描述,这样轮次意义不是很大。你能够快速理解用户的意思,以及快速反映给用户的速度。

也有人会认为场景越多规则也会越多,上面也提到了为什么要建模?如果你场景越多,规则越多,也就意味着你在单个场景使用非常多的规则,会导致你在多服务对接里面使用越来越多的规则。

需要明确划分场景?

多场景磨合是本身设计这个场景里面非常重要的一个点。

我总结一下我所说的对话即应用的时代,在这样一个时代我们会发现它软件之间的边界消失了,所有的服务最后通过自然对话的方式提供给用户。整体的这样一个过程它会大大的提升人在使用软件上的效率,也会大大降低整个软件开发的成本。我觉得这样一个时代,它应该是一个机器逐步模仿人,并最终会超越人类的一个时代。

点击大咖名字,查看精彩葡萄干货

本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。

返回顶部