RoBERTa在SuperGLUE得分逼近人类,甩baseline十多个点

大数据文摘

发布时间:08-1315:37

大数据文摘出品

作者:宁静、曹培信

7月30日,文摘菌曾报道过,被谷歌XLNet全面刷爆的BERT,被Facebook升级后,变身"Robustly optimized BERT approach"——强力优化BERT方法,重新称霸GLUE、SQuAD和RACE三个排行榜。

在RACE测试集上的结果显示,RoBERTa的Accyracy相比BERT(large)提高了10个百分点,相比XLNet(large)提高了2个百分点。

现在,Facebook AI又将RoBERTa提交到了SuperGLUE,榜单显示RoBERTa已经领先Bert 15个百分点,表现直逼人类。

从GLUE到SuperGLUE:难度更大

SuperGLUE在GLUE设计的基础上,采用了一系列更加困难的语言理解任务,除了共同任务识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)外,还添加了常识推理和词义消除等任务,上表中给出的其他测试数据集包括:

CB短文本语料库MultiRC真假问答任务数据集COPA因果推理WiC词义消岐

RoBERTa离人类还有多远

从SuperGLUE排行榜上看,RoBERTa的得分距离人类只有5.2分,但是NYU数据科学中心助理教授Sam Bowman在其推特上,关于这一排行榜RoBERTa直逼人类的表现也发表了看法。

SuperGLUE代表的是我们需要处理的35个任务中最难的几个。而对于35个中的大多任务,BERT 本身的性能就已经快接近极限了。

还有几点需要注意:

RoBERTa良好的表现很大程度受益于充足的数据集:ReCoRD和MultiRC。效果转移到数据不佳的任务比较困难。WinoGender coref.accuracy表现较好,但代价是gender parity更差。

RTE模型在downward monotone inferences仍然表现较差:例如,它倾向于假设“所有的狗都喜欢抓它们的耳朵”。“所有动物都喜欢搔耳朵。”

Sam Bowman认为,他对觉得RoBERTa有个明显的天花板,而我们对于人类表现有一个比较低的估计,他敢打赌,接下来的5到10个百分点将变得相当难以突破。

让我们期待通过算力数据以及大模型(Transformer),人类到底能够将NLP推到什么程度吧!

返回顶部