6月4-6日,由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市人民政府主办的2021全球人工智能技术大会在杭州召开。大会汇聚了来自世界各地的人工智能领域院士专家,共同为人工智能的发展建言献策。
6日下午,在多语种智能信息处理专题论坛上,中国人工智能学会(以下简称:CAAI)多语种智能信息处理专业委员会正式成立。国务院参事、CAAI理事长、中国工程院院士戴琼海,CAAI名誉理事长、中国工程院院士李德毅,中国工程院院士、新疆多语种信息技术重点实验室主任吾守尔·斯拉木发表致辞,来自学术界、产业界的多位重磅嘉宾带来了精彩报告。百度首席技术官、CAAI/ACL Fellow王海峰以《机器翻译:从梦想到现实》为题,介绍了机器翻译相关研究的重要成果和产业应用。
机器翻译迈入深度学习时代
机器翻译的发展历程可以追溯到1947年机器翻译设想的提出。在70多年的时间里,机器翻译经历了基于规则的方法、统计机器学习和神经网络机器翻译三个阶段,进入深度学习时代。
神经网络机器翻译的大规模产业应用面临高质量、多语言、跨模态的产业化需求。在翻译质量方面,百度研发了融合丰富特征的神经网络机器翻译模型,漏译率降低80%;多智能体联合学习模型,突破单一模型学习能力不足的限制;在国际权威机器翻译评测中获得第一名,翻译质量大幅提升。2015年5月,百度在全球率先上线大规模神经网络机器翻译产品。
在多语言翻译方面,针对语言数量多、语料分布不均衡、部署复杂、实现难度大等难题,百度研发了基于共享编码器的翻译模型,突破了低资源语言的翻译瓶颈,研制了多语言翻译统一框架,大幅提升部署效率,实现203种语言互译,支持41006个翻译方向。
机器同传方面,针对同传翻译质量与时延难以兼顾的痛点,百度打造了基于语义单元的同传模型,翻译准确率超过80%,时间延迟约为3秒,翻译水平媲美人类译员。同时,在端到端同传模型方面,突破了语音识别和机器翻译交互同步解码,实现跨模态知识共享。百度在机器翻译技术上持续创新突破的同时,也积极开放合作,联合Google、清华大学等举办机器同传研讨会、发布面向真实演讲场景的中英同传数据集,促进同传研究。
每天翻译超千亿字符,跨语言沟通正在成为现实
机器翻译是百度很早就开始积累和打造的AI技术之一。2010年以来,百度在大规模产业化机器翻译技术、海量翻译知识获取、多语言翻译、机器同声传译等方面均进行了系统而深入的研究,技术上不断突破创新,产业应用不断丰富。百度翻译已形成包括翻译PC版、翻译APP、AI同传、以及翻译开放平台等完整的产品矩阵,实时准确地响应全球海量复杂多样的翻译请求,每天翻译超过千亿字符,较十年前增长了十万倍。
截止目前,百度翻译已服务50多万家企事业单位和开发者,覆盖30多个领域,持续在人们生活工作、公共服务、科研学习等方面发挥作用:服务服贸会、进博会、全球人工智能技术大会等上百场重要国际会议;服务经济发展、助力跨国贸易平台/企业降本增效;免费开放生物医药领域翻译,与防疫志愿者小组等合作,助力全球抗疫等等。
资料显示,全球权威咨询机构Gartner发布《Hype Cycle for Natural Language Technologies, 2020》,将百度评为神经网络机器翻译标杆机构。百度是国内机器翻译领域唯一入围单位。2020年12月,Gartner在报告《Market Guide for AI-Enabled Translation Services》中提到,百度凭借在机器翻译方面出色的表现强势入围全球AI翻译服务代表性提供商。
报告最后,王海峰表示,百度将始终坚持技术创新,推动技术进步,为产业升级、社会经济高质量发展、国家繁荣昌盛做出更大贡献。