本文由brainnews脑科学世界团队原创编译,转载请联系授权。
阿尔茨海默病(AD)是一种进展性神经退行性疾病,会引起记忆、思维和行为方面的问题,且病情发展进程急速,患病率高,长期护理费用高,目前的诊断形式耗时耗力且繁琐,可能导致大多数AD患者无法接受长期诊断,所以自动检测AD相关的研究非常重要。
使用语音分析、自然语言处理(NLP)和机器学习(ML)可以很好的区分健康和认知受损的参与者。现有的研究解决了AD和非AD参与者语音之间的差异,并致力于开发基于语音的生物标记物,这些模型通常是描述性的,而不是预测性的,因此经常忽视了AD检测的偏差,如同一参与者重复出现的演讲、语言样本的音频质量变化以及所用数据集中性别和年龄分布不平衡等,因此,现有的ML模型容易出现可用数据中引入的偏差。
此外,使用随机训练/试验分割或交叉验证技术对先前开发的预测性检测模型的性能进行评估,这可能会导致人工提高ML模型的过度拟合,综合以上问题,所以很难比较论文和数据集之间模型对性能匹配程度。综合以上背景,来自加拿大的jekaterina novikova团队比较了两种自动检测AD的常用的方法,以确定预先训练转移模型的优势。
本文数据来源于ADReSS数据集,该数据集包括来自非AD(N=78)和AD(N=78)参与者的156段语音记录和相关转录本。与其他用于AD检测的语音数据集相比,ADReSS数据集仔细匹配了年龄和性别,以便将预测任务中的偏差风险降至最低(表1-3)。
对录音进行了声学增强,消除了固定噪音,并对所有语音片段进行了音量标准化,以控制因录音条件(如麦克风放置)引起的变化。之后对数据集进行主要特征的提取,数据集中的语音记录是手动转录的,包括参与者和研究者的语音片段,只使用与参与者相对应的部分。
此外,作者将所有与单个图片描述相对应的参与者演讲片段合并,以提取声学特征。从转录本和相关音频文件中提取509个手动设计的特征,这些特征在以往的文献中被认为是认知损伤的标志,还提取了句法特征,例如各种词性标签的比例,以及连续话语之间的相似性。
对AD和非AD参与者进行分类,通过对ADReSS数据集进行10倍交叉验证,并使用预训练模型权重来初始化分类模型,主要使用准确度得分来评估效果,除此之外还报告了阳性类群的准确度、回归值、特异性等。使用MMSE分数回归为每个特性计算F评分。
表1-3: ADReSS数据集信息
结 果
(1)AD与非AD的分类
在所有度量方面,BERT模型在数值上优于所有基于领域知识的DML模型,平均准确率为81.8%。它报告了所有分类模型的性能(表4)。每一个分类模型都显著优于之前的基础模型,特征选择后准确率提高了13%左右。基于BERT的分类模型的准确率在85.14%到81.25%之间。
(2)MMSE回归评分
特征选择对模型的性能有很大影响,此外,岭回归能够在ADReSS数据集上达到4.56的方根误差,比基线降低0.64。考虑到数据集规模小和任务难度大,表4中线性回归模型表现最好。
表4:LOSO-CV MMSE回归结果
讨 论
(1)特征差异分析
研究者在前人研究的基础上,提取了大量的语言和声学特征来捕捉与AD相关的语言和声学变化,为了研究语言/声学现象的统计显著性差异,对ADReSS数据集中的每一类进行了特征均值之间的独立检验。87个特征有显著性差异,其中79个是基于文本的词汇语法和语义特征,8个是声学特征。
这8个声学特征包括长停顿次数、停顿持续时间等,但经校正多次测试后发现,只有13个特征在AD和非AD语音之间存在显著差异,但都不是声学特征(表5)。这意味着语言特征可以区分AD与非AD群体,这是为什么只训练语言特征的模型(即BERT模型)可以获得高于随机概率的性能。
表5 ADReSS数据集中语音之间的特征差异
(2)BERT模型的注解
对BERT模型的多尺度可视化发现,AD和非AD组的特征很大程度上表明了AD中的语义损伤会反映在所使用的词语类型及其图片描述内容上(图1)。图1是一个健康者语音记录的样本,可以发现每个单词对应的嵌入项对集合表示的“注意力”贡献度。
图1 注意力可视化图
(3)分析AD检测性能差异
大量的语言学特征对于检测AD相关差异有重要性。与匹配良好的数据集相比,BERT具有更高的性能,但差异不显著。BERT模型捕捉了大量的语言现象,潜在地封闭了大部分重要的词汇句法和语义特征。因此,在微调后,它能够使用转录语音的词汇、语法和语义中存在的信息,这对于AD检测任务是非常有用的。
结 论
这种方法支持良好的机器学习,以语言为中心的处理技术具有从语音中检测阿尔滋海默病的价值,并强调需要在平衡的数据集上比较模型性能,使用相同训练参数和独立的测试数据集来确定最佳的预测模式,仅语言信息就能够实现比模型(包括声学和语言学特性)更高的性能,甚至在数值上也能达到更好的性能。其简单、便捷、高效、准确等特性使AD的诊断有质的飞跃,方便AD患者接受长期诊断,并有助于开发AD检测的标志物。
参考文献:
1.Ahmed, S., Haigh, A.-M. F., de Jager, C. A., and Garrard, P. (2013). Connectedspeech as a marker of disease progression in autopsy-proven Alzheimer’sdisease.Brain136, 3727–3737. doi: 10.1093/brain/awt269Ai, H., and Lu, X. (2010).
2.A web-based system for automatic measurementof lexical complexity, in27th Annual Symposium of the Computer-AssistedLanguage Consortium (CALICO-10)(Amherst, MA), 8–12.
编译作者:原代美少女 (Brainnews创作团队)
校审:Simon (Brainnews编辑部)