自然语言生成(Natural Language Generation,NLG)的主要难点在于,在知识库或逻辑形式等方面需要进行大量基础工作,人类语言系统中又存在较多的背景知识,而机器表述系统中一方面较难将背景知识集成(信息量太大),另一方面,语言在机器中难以合理表示,所以目前自然语言生成的相关成果较少。

现在的自然语言生成方法大多是用模板,模板来源于人工定义、知识库,或从语料库中进行抽取,这种方式生成的文章容易出现僵硬的问题。目前也可以用神经网络生成序列,如Seq2Seq、GAN等深度学习模型等,但由于训练语料的质量各异,容易出现结果随机且不可控等问题。

自然语言生成的步骤包括内容规划、结构规划、聚集语句、选择字词、指涉语生成、文本生成等几步,目前比较成熟的应用主要还是一些从数据库或资料集中通过摘录生成文章的系统,例如一些天气预报生成、财经新闻或体育新闻的写作、百科写作、诗歌写作等,这些文章本身具有一定的范式,类似八股文一样具有某些固定的文章结构,语言的风格变化较少。

此外,此类文章重点在于其中的内容,读者对文章风格和措辞等要求较低。综合来看,目前人工智能领域中,自然语言生成的难题还未真正解决,可谓“得语言者得天下”,毕竟语言也代表着较高级的人类智能。

举报/反馈

林枫说科技

753获赞 482粉丝
欢迎大家多多关注我们
关注
0
0
收藏
分享