新的自动语音识别模型：有效提高ASR对日常声学混乱环境的处理性能-环保设备网

Siri 和 Amazon Alexa 等流行的语音助手已经向更广泛的公众推出了自动语音识别 (ASR)。尽管已有数十年的历史，但 ASR 模型仍难以保持一致性和可靠性，尤其是在嘈杂的环境中。中国研究人员开发了一种框架，可有效提高 ASR 针对日常声学混乱环境的处理性能。

香港科技大学和微众银行的研究人员提出了一个新的框架——语音语义预训练（PSP），并展示了他们的新模型对合成高噪声语音数据集的鲁棒性。

语音语义预训练 (PSP) 框架使用“噪声感知课程”学习来有效提高 ASR 在噪声环境中的性能。集成了热身、自我监督学习和微调。图片来源：CAAI人工智能研究，清华大学出版社

他们的研究发表在CAAI 人工智能研究上。

“鲁棒性是 ASR 长期面临的挑战，”香港科技大学计算机科学与工程系的 Xueyang Wu 说：“我们希望以低成本提高中国 ASR 系统的稳健性。”

ASR 使用机器学习和其他人工智能技术将语音自动翻译成文本，用于语音激活系统和转录软件等用途。但新的以消费者为中心的应用程序越来越多地要求语音识别更好地工作——处理更多的语言和口音，并在视频会议和现场采访等现实生活中更可靠地执行。

传统上，训练包含 ASR 的声学和语言模型需要大量特定于噪声的数据，这可能会耗费时间和成本。

声学模型 (AM) 将单词变成“音素”，它们是基本声音的序列。语言模型 (LM) 将音素解码为自然语言句子，通常有两个步骤：一个快速但相对较弱的 LM 生成一组候选句子，而一个强大但计算量大的 LM 从候选句子中选择最佳句子。

“传统的学习模型对嘈杂的声学模型输出并不稳健，尤其是对于具有相同发音的中文和弦词，”吴说：“如果第一遍学习模型解码不正确，第二遍就很难弥补。”

新提出的框架 PSP 可以更容易地恢复错误分类的单词。通过预训练将 AM 输出与完整上下文信息一起直接转换为句子的模型，研究人员可以帮助 LM 从 AM 的嘈杂输出中有效地恢复。

PSP 框架允许模型通过称为噪声感知课程的预训练机制进行改进，该机制逐渐引入新技能，从简单开始并逐渐转向更复杂的任务。

“我们提出的方法中最关键的部分，即噪声感知课程学习，模拟了人类如何从嘈杂的语音中识别句子的机制，”吴说。

热身是第一阶段，研究人员在干净的音素序列上预训练音素转换器，该音素序列仅从未标记的文本数据转换而来 - 以减少注释时间。这个阶段“预热”模型，初始化基本参数以将音素序列映射到单词。

在第二阶段，自我监督学习中，传感器从自我监督训练技术和功能生成的更复杂的数据中学习。最后，生成的语音到单词转换器使用真实世界的语音数据进行微调。

研究人员通过实验证明了他们的框架在从工业场景和合成噪声中收集的两个真实数据集上的有效性。结果表明，PSP框架有效地改进了传统的 ASR 流水线，将第一个数据集的相对字符错误率降低了 28.63%，第二个数据集降低了 26.38%。

在接下来的步骤中，研究人员将使用更大的未配对数据集研究更有效的 PSP 预训练方法，以最大限度地提高抗噪 LM 预训练的有效性。

本文链接：http://www.fyepb.cn/news/qiche/223557.html 免责声明:此条信息由编辑或作者发布在环保设备网站，内容中涉及的所有法律责任由此商家承担，请自行识别内容真实性！