目前有数百万人遭受语言障碍(speech impairments)的影响,根本原因主要是神经或遗传疾病导致的身体损伤、脑损伤或听力丧失。
由此产生的症状也各有不同,包括口吃、构音障碍、失用症等,这些症状也会对自我表达、参与社会活动产生不利影响。 自动语音识别(ASR)技术能够通过语音助手帮助用户改善听写以及加强沟通,来帮助患有此类语音障碍的人训练。但ASR技术在显示应用中仍然有一个障碍,就是准确率仍然不够。 虽然深度学习系统计算能力相比和数据集的规模相比以往已经有很大提升,并且ASR系统的准确性也提高了很多,但对于许多患有言语障碍的人来说,性能仍然不够,在演讲的场景等都无法被语言障碍的人使用。
2019 年时,谷歌推出了Project Euphonia,并讨论了如何使用个性化的、定制的无序语音ASR模型来实现更精确的性能,并且和通用ASR 模型的性能已经相差无几。 2021 年,Google 又在Interspeech 2021上发表了两项研究成果,这两项研究旨在将个性化ASR模型的可用性扩展到更多用户群体。
第一篇论文主要展示了一个数据集,包括了从Project Euphonia中大规模收集到的100多万次语音组成的无序语音数据。
第二篇论文主要讨论了如何基于该语料库生成个性化的ASR模型。与通用语音模型开箱即用的能力相比,定制ASR模型可以产生更高精度的模型,并在选定的域中可以实现高达85%的字错误率改进。 自2019年以来,在各种情况下患有不同程度严重言语障碍的演讲者为Project Euphonia 提供了语音样本,这项工作已经将Euphonia的语料库增加到100多万个样本,包括1330名发言者的长达1400多个小时语音记录。
为了简化数据收集过程,实验参与者在他们的个人笔记本电脑或电话(带耳机和不带耳机的情况都有)上使用了一个家庭录音系统,而非采用一个理想化的、基于实验室的环境来收集工作室级别超高质量的录音数据。 为了降低转录成本,同时保持高转录的一致性,在保存数据时优先考虑使用脚本的演讲。
参与者阅读基于浏览器的录制工具上显示的提示,短语提示涵盖了家居自动化的指令,例如「打开电视」、和护理工作人员的对话,如「我饿了」,或者是和其他人的非正式对话,如「你好吗?今天过得愉快吗?」等内容。
大多数参与者收到了一个列表,包含超过1500个短语,其中有1100个短语只出现一次以及100个重复四次以上的短语。 语音专家在为每个说话人听语音的同时进行全面的听觉感知和语音评估,根据语音障碍类型(例如口吃、构音障碍、失用症)为每个说话人定级,总共包含24种异常语音特征的评级(例如,鼻音亢进、发音不精确、迷糊),以及技术上的问题(例如,信号丢失、分割问题)和声学问题(例如,环境噪声、次级扬声器串扰)相关记录质量评估。 有了数据才能训模型,这些新增的语音障碍的数据集也是开发新模型的基础:无序语音(disordered speech)的个性化的ASR模型。每个定制模型都使用标准的端到端RNN-T ASR模型,且仅使用目标说话者的数据进行微调。
RNN-T 的模型架构中,编码器网络由8层组成,预测网络由2层单向LSTM单元组成。 个性化ASR 模型重点调整编码网络,也就是模型中处理给定说话人声学数据的部分。研究人员发现,在固定住前三个编码层(同时固定他们的连接层和解码层)的同时,只更新底部五个编码层,可以获得最佳结果,并能够有效避免过度拟合。 为了使这些模型对背景噪声和其他声学效应更具鲁棒性,还用了一种专门针对无序语音的主要特征进行调整的SpecAugment配置。此外研究人员还发现,选择预训练的基础模型至关重要,最后他们选了一个在大型的通用语音语料库上训练的基础模型。
目前Google总共为大约430名演讲者训练了专属他们的个性化ASR模型,这些演讲者每人录了至少300条语音,把其中10%的话语作为一个测试集(训练和测试之间没有短语重叠),在这个测试集上计算个性化模型和通用语音模型的单词错误率(WER)作为评估标准。 实验结果表明,Google 提出的个性化方法在所有严重语言障碍条件下都有显著的改进。即使对于严重受损的言语,家居自动化领域短语的WER中位数也从89%左右下降到13%。在其他领域,如会话和护理人员交流下,准确性也有显著提高。
在进行消融实验时,将实验分为几组:1、HighWER和LowWER:将说话人按照具有基于 WER 分布的第 1 和第 5 个五分位数的高和低划分个性化模型。2、SurpHighWER:具有特别高 WER 的说话人(在HighWER组具有典型的或轻度言语障碍的参与者)。 可以预见到,不同的病理和语言障碍表现会不均匀地影响 ASR。根据HighWER组中言语障碍类型的分布表明,由于脑瘫引起的构音障碍特别难以建模。该组的中位语言受损程度也更高。 为了确定影响 ASR 准确性的说话人特定和技术因素,研究人员检查了ASR 性能较差 ( HighWER ) 和优秀 ( LowWER )的参与者之间评级数据的差异。 和预期相同,LowWER组的总体言语受损程度显着低于HighWER组(p < 0.01)。清晰度是HighWER组中最突出的非典型语音特征,还包括异常的韵律、发音和发声。而这些语音特征在日常生活中也会降低整体语音清晰度。 SurpHighWER与比较组LowWER组(p <0.01)具有较少训练数据和更低的SNR ,除了速度外,其他所有的因素都对结果有较小的影响。相比之下,HighWER组在所有因素上表现出比较大的影响。最后研究人员将个性化 ASR 模型与人类听众进行了比较。三位演讲专家独立地为每位演讲者转录了 30 句话。可以发现,与人类听众的 WER 相比,个性化 ASR 模型的 WER 平均较低,并且随着语言受损严重程度的增加而增加。AI人工智能时代,残疾人士也能享受到科技带来的人文关怀,AI 技术的发展可以给残障人士加上耳朵、说话加上字幕、让盲人借助CV技术重新“看“到世界,愿科技真正向善。