音视频语音识别(AV-ASR 或 AVSR)是从音频和视频流中转录文本的任务,由于其对噪声的鲁棒性,最近引起了广泛的研究关注。迄今为止,绝大多数工作都集中在为非流式识别开发 AV-ASR 模型;关于流式 AV-ASR 的研究非常有限。
我们基于 TorchAudio(一个用于音频和信号处理的 PyTorch 库)开发了一个紧凑的实时语音识别系统 PyTorch。它可以在本地笔记本电脑上高精度运行,无需访问云端。今天,我们发布了 实时 AV-ASR 配方,它采用宽松的开源许可证(BSD-2-Clause 许可证),支持广泛的应用,并促进对语音识别音视频模型的进一步研究。
这项工作是我们 AV-ASR 研究 方法的一部分。这种方法的一个有前景的方面是它能够自动标注大规模音视频数据集,从而可以训练更准确和鲁棒的语音识别系统。此外,这项技术有可能在智能设备上运行,因为它实现了此类设备推理所需的延迟和内存效率。
未来,语音识别系统有望为众多领域的应用提供动力。AV-ASR 的主要应用之一是提高 ASR 在嘈杂环境中的性能。由于视频流不受声学噪声的影响,将它们集成到音视频语音识别模型中可以弥补 ASR 模型的性能下降。我们的 AV-ASR 系统除了语音识别之外,还具有服务于多种用途的潜力,例如文本摘要、翻译甚至文本到语音的转换。此外,在某些情况下,例如不允许说话的会议,以及在公共对话中需要隐私的情况下,仅使用 VSR 可能很有用。
AV-ASR
图 1:音视频语音识别系统流程图
我们的实时 AV-ASR 系统如图 1 所示。它由三个组件组成:数据采集模块、预处理模块和端到端模型。数据采集模块包括硬件设备,例如麦克风和摄像头。其作用是从现实世界中收集信息。收集信息后,预处理模块定位并裁剪出人脸。接下来,我们将原始音频流和预处理后的视频流输入到我们的端到端模型中进行推理。
数据采集
我们使用 torchaudio.io.StreamReader
从流设备输入(例如笔记本电脑上的麦克风和摄像头)捕获音频/视频。收集原始视频和音频流后,预处理模块会定位并裁剪人脸。应该注意的是,数据在流式传输过程中会立即删除。
预处理
在将原始流输入到我们的模型之前,每个视频序列都必须经过特定的预处理程序。这涉及三个关键步骤。第一步是执行人脸检测。之后,将每个单独的帧与参考帧(通常称为平均人脸)对齐,以便对跨帧的旋转和尺寸差异进行归一化。预处理模块中的最后一步是从对齐的人脸图像中裁剪人脸区域。我们想明确指出,我们的模型输入的是原始音频波形和人脸像素,没有任何进一步的预处理,例如人脸解析或地标检测。表 1 说明了预处理过程的示例。
![]() |
![]() |
![]() |
![]() |
0. 原始图像 | 1. 检测 | 2. 对齐 | 3. 裁剪 |
表 1:预处理流程。
模型
图 2:音视频语音识别系统架构
我们考虑两种配置:Small 模型具有 12 个 Emformer 块,Large 模型具有 28 个,参数分别为 34.9M 和 383.3M。每个 AV-ASR 模型都包含前端编码器、融合模块、Emformer 编码器和 transducer 模型。具体来说,我们使用卷积前端从原始音频波形和面部图像中提取特征。这些特征被连接起来形成 1024 维特征,然后通过一个两层多层感知器和一个 Emformer transducer 模型。整个网络使用 RNN-T 损失进行训练。所提出的 AV-ASR 模型的架构如图 2 所示。
分析
数据集。 我们遵循 Auto-AVSR:使用自动标签的音视频语音识别,使用公开可用的音视频数据集进行训练,包括 LRS3、VoxCeleb2 和 AVSpeech。在训练和测试阶段,我们都不使用嘴部 ROI 或面部地标或属性。
与最先进技术的比较。 表 2 显示了 LRS3 上非流式评估结果。我们的音视频模型算法延迟为 800 毫秒(160 毫秒 + 1280 毫秒 x 0.5),字错误率 (WER) 为 1.3%,与 AV-HuBERT、RAVEn 和 Auto-AVSR 等最先进的离线模型实现的字错误率相当。
方法 | 总时长 | WER (%) |
ViT3D-CM | 90, 000 | 1.6 |
AV-HuBERT | 1, 759 | 1.4 |
RAVEn | 1, 759 | 1.4 |
AutoAVSR | 3, 448 | 0.9 |
我们的模型 | 3, 068 | 1.3 |
表 2:LRS3 数据集上音视频模型的非流式评估结果。
噪声实验。 在训练期间,将 16 种不同的噪声类型随机注入到音频波形中,包括来自 Demand 数据库的 13 种噪声类型:“DLIVING”、“DKITCHEN”、“OMEETING”、“OOFFICE”、“PCAFETER”、“PRESTO”、“PSTATION”、“STRAFFIC”、“SPSQUARE”、“SCAFE”、“TMETRO”、“TBUS”和“TCAR”,来自 语音命令 数据库的另外两种噪声类型:白色和粉红色,以及来自 NOISEX-92 数据库的另一种噪声类型:babble 噪声。信噪比 (SNR) 水平在 [clean, 7.5dB, 2.5dB, -2.5dB, -7.5dB] 范围内,并以均匀分布的方式选择。表 3 显示了在 babble 噪声下测试时,ASR 和 AV-ASR 模型的结果。随着噪声水平的增加,我们的音视频模型相对于纯音频模型的性能优势越来越明显,表明结合视觉数据可以提高噪声鲁棒性。
类型 | ∞ | 10dB | 5dB | 0dB | -5dB | -10dB |
A | 1.6 | 1.8 | 3.2 | 10.9 | 27.9 | 55.5 |
A+V | 1.6 | 1.7 | 2.1 | 6.2 | 11.7 | 27.6 |
表 3:在 0.80 秒延迟约束下,我们的纯音频 (A) 和音视频 (A+V) 模型在 LRS3 数据集上,不同信噪比下的流式评估 WER (%) 结果。
实时率。实时率 (RTF) 是衡量系统有效处理实时任务能力的重要指标。RTF 值小于 1 表示系统满足实时要求。我们使用配备 Intel® Core™ i7-12700 CPU(运行频率为 2.70 GHz)和 NVIDIA 3070 GeForce RTX 3070 Ti GPU 的笔记本电脑来测量 RTF。据我们所知,这是第一个报告 LRS3 基准测试 RTF 的 AV-ASR 模型。Small 模型在 CPU 上实现了 2.6% 的 WER 和 0.87 的 RTF(表 4),证明了其在实时设备端推理应用中的潜力。
模型 | 设备 | 流式 WER [%] | RTF |
Large | GPU | 1.6 | 0.35 |
Small | GPU | 2.6 | 0.33 |
CPU | 0.87 |
表 4:AV-ASR 模型大小和设备对 WER 和 RTF 的影响。请注意,RTF 计算包括预处理步骤,其中使用超轻量级人脸检测 Slim 320 模型来生成人脸边界框。
从以下已发表的著作中了解更多关于该系统的信息
- Shi, Yangyang, Yongqiang Wang, Chunyang Wu, Ching-Feng Yeh, Julian Chan, Frank Zhang, Duc Le, 和 Mike Seltzer. “Emformer:用于低延迟流式语音识别的基于高效内存 Transformer 的声学模型。” ICASSP 2021-2021 IEEE 国际声学、语音和信号处理会议 (ICASSP),第 6783-6787 页。IEEE,2021 年。
- Ma, Pingchuan, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie Chen, Stavros Petridis, 和 Maja Pantic. “Auto-AVSR:使用自动标签的音视频语音识别。” ICASSP 2023-2023 IEEE 国际声学、语音和信号处理会议 (ICASSP),第 1-5 页。IEEE,2023 年。