近日,第27届全国信息检索挑战杯(CCIR Cup)竞赛结果揭晓,VIDEO++极链科技的两支人工智能科研代表队在能人机交互自然语言理解」赛题中分别取得第二名与第三名的竞赛战绩。

全国信息检索挑战杯是由全国信息检索学术会议(CCIR)发起的技术评测比赛,由中国中文信息学会与中国计算机学会联合举办。作为信息检索领域的航标,CCIR取得的科研成果满足了人类在互联网上快速准确获取信息与知识的需求,为人工智能领域存在的实际问题探索解决方案,也为科研人员提供了必要的数据支持,极大推动了互联网和人工智能产业的发展。

2021 CCIR,打响了国际级权威赛事第九届CCF大数据与计算机智能大赛(CCF BDCI)系列赛事的第一枪该系列赛事邀请到梅宏、李国杰、倪光南、徐宗本等七大院士作为顶级专家评审,以及国内外百余名学术专家组成评审团,同时百度、华为和中原银行等十余家企业的技术专家进行参评。政产学研多方协同评审,其权威性有目共睹。

经历了近三个月A榜与B榜的接连挑战,决赛答辩阶段,组委会根据算法创新性、商业价值与现场表现力等多个维度对参赛团队进行综合评估,最终极链科技两支团队中国移动研究院发布的「智能人机交互自然语言理解」赛题取得第二名和第三名的优秀战绩。

一直以来,“人机交互”都是人工智能的重要应用领域,随着“语音交互”“AR交互”等新兴交互方式的涌现,智能人机交互产品的自然语言理解(NLU ,Natural Language Understanding)任务开始在实际应用过程面临更加复杂的任务处理,根源于自然语言本身较高的复杂性使得用户意图无法被很好地理解,使得相关产品往往很难满足用户的各类别复杂要求

为了更好地解决智能人机交互产品的自然语言理解任务,该赛题旨在对NLU领域的“意图识别”及“槽位填充”任务进行考察,发布的数据集包含用户与音箱等智能设备进行单轮对话的文本数据,共计11种意图类别(包含2个小样本意图)、47个槽位类型。

大赛需要参赛选手围绕所选赛题和特定任务,设置多种不同的技术场景,基于给定的数据训练算法模型,持续优化相关精度、效率等指标。因此该赛题除基本的学习任务外,还面临“域外检测”与“小样本学习”两个子任务:

  • 期望通过“小样本学习”任务减少产品对大量新类别标注数据的依赖。

  • 通过“域外检测”任务识别未知意图,摆脱对已知意图的干扰,同时达到尽可能好的学习效果。

两大团队面对所需解决的任务,设计了域外检测意图识别槽位抽取大算法模块构成算法系统通过“域外检测”算法来排除测试集中的域外数据,再对过滤后得到的域内数据进行“意图识别与槽位抽取”。

解决方案整体流程图

“域外检测”算法部分,综合利用了BERT、RoBERTa、MACBERT等基于不同语料预训练和不同开源模型之间的互补能力,融合增强了整体算法模型体系的域外检测能力,提升域外数据召回率的同时,也利用了多样化开源数据进行训练以最大化构建域内数据的补集空间。

为了更进一步提升任务准确率,团队对意图识别与槽位抽取进行了联合建模,通过联合训练学习到了两种任务间的相互约束关系,并实现了一次推理过程即可同时完成两种任务,准确而高效。

解题过程中,团队发现由于缺乏先验知识,而使意图识别的准确率提升陷入瓶颈。为了在缺乏实体属性的情形下,对模型不可靠的预测过程进行知识赋能,团队为此构建了文人名录库文学作品库等多种知识库,从而提高了意图识别的准确率。(例如,改进后可以正确地在Music-Play、Audio-Play这两种易混淆意图当中作出选择)

针对竞赛训练数据中“异常槽位”(表现为槽位所对应的槽值并非来自于原文中,准确地说应该为一种分类标签)的抽取,团队根据异常槽位槽值非空占比值的大小设计了高效的特征词判断规则深度学习分类模型两种策略,从而可靠地实现了槽位抽取任务。

开源之路,一起同行,感谢提供开源数据与模型的作者为信息检索领域探索出的先锋阵地。极链科技作为决赛入围团队,作品也将在条件允许的情况下统一开源,惠及所有大数据及人工智能科研人员。

一次次参与竞赛的过程,也是极链科技不断求索和突破的过程。在激烈的竞赛较量中,链两支队伍同时入围决赛,也在一定程度上彰显了极链在工智能领域的产研实力

在未来,建立新一代人工智能关键技术体系的过程中,人机交互的体验层级必会愈加丰盈,用户的情感与个性化诉求会更加凸显。极链科技将会躬身前行,不断提升人工智能科研实力,科技驱动产业深度融合,为国家科技战略发展贡献力量,赋能百姓生活智慧升级。

举报/反馈

宠物知识科普

6580获赞 9858粉丝
专注于宠物行业,分享宠物知识和知识科普!
科技领域爱好者
关注
0
0
收藏
分享