视听语音识别 (AV-ASR, 或 AVSR) 是一项从音频和视频流转录文本的任务,由于其对噪声的鲁棒性,最近吸引了大量研究关注。迄今为止,绝大多数工作都集中在开发用于非流式识别的 AV-ASR 模型;对流式 AV-ASR 的研究非常有限。
我们基于 TorchAudio 开发了一个紧凑的实时语音识别系统,TorchAudio 是一个用于音频和信号处理的 PyTorch 库。它可以在本地笔记本电脑上以高精度运行,无需访问云端。今天,我们以宽松的开源许可(BSD-2-Clause 许可证)发布了实时 AV-ASR recipe,这为广泛的应用场景提供了可能,并促进了视听语音识别模型的进一步研究。
这项工作是我们 AV-ASR 研究方法的一部分。这种方法的一个有前途的方面是它能够自动标注大规模视听数据集,从而能够训练更准确、更鲁棒的语音识别系统。此外,由于该技术达到了智能设备进行推理所需的延迟和内存效率,因此它有潜力在智能设备上运行。
未来,语音识别系统有望在众多领域为应用提供支持。AV-ASR 的主要应用之一是提高 ASR 在嘈杂环境中的性能。由于视频流不受声学噪声的影响,将它们集成到视听语音识别模型中可以弥补 ASR 模型性能的下降。我们的 AV-ASR 系统除了语音识别之外,还具有多种潜在用途,例如文本摘要、翻译,甚至文本转语音。此外,在某些场景下,单独使用 VSR 也很有用,例如不允许说话的地方、会议中,以及需要公共对话隐私的场合。
AV-ASR
图 1:视听语音识别系统的流水线
我们的实时 AV-ASR 系统如图 1 所示。它由三个组件组成:数据收集模块、预处理模块和端到端模型。数据收集模块包括硬件设备,例如麦克风和摄像头。其作用是收集真实世界的信息。信息收集后,预处理模块负责定位和裁剪面部。接下来,我们将原始音频流和预处理后的视频流输入到我们的端到端模型中进行推理。
数据收集
我们使用 torchaudio.io.StreamReader
从流式设备输入(例如笔记本电脑上的麦克风和摄像头)捕获音频/视频。一旦收集到原始视频和音频流,预处理模块会定位并裁剪面部。值得注意的是,数据在流式处理过程中会立即删除。
预处理
在将原始流输入到我们的模型之前,每个视频序列必须经过特定的预处理程序。这包括三个关键步骤。第一步是执行面部检测。之后,为了标准化帧间的旋转和尺寸差异,将每个单独的帧与一个参照帧(通常称为平均脸)对齐。预处理模块的最后一步是从对齐的面部图像中裁剪出面部区域。我们希望明确指出,我们的模型接收的是原始音频波形和面部像素,无需进行面部分析或特征点检测等进一步预处理。预处理程序的一个示例如表 1 所示。
![]() |
![]() |
![]() |
![]() |
0. 原始图像 | 1. 检测 | 2. 对齐 | 3. 裁剪 |
表 1:预处理流水线。
模型
图 2:视听语音识别系统的架构
我们考虑两种配置:Small(包含 12 个 Emformer 块)和 Large(包含 28 个),参数数量分别为 3490 万和 3.833 亿。每个 AV-ASR 模型由前端编码器、融合模块、Emformer 编码器和 transducer 模型组成。具体而言,我们使用卷积前端从原始音频波形和面部图像中提取特征。将特征连接形成 1024 维特征,然后通过一个两层多层感知机和一个 Emformer transducer 模型。整个网络使用 RNN-T 损失进行训练。提出的 AV-ASR 模型的架构如图 2 所示。
分析
数据集。 我们遵循 Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels,使用公开可用的视听数据集(包括 LRS3、VoxCeleb2 和 AVSpeech)进行训练。在训练和测试阶段,我们不使用嘴部 ROI、面部特征点或属性。
与现有技术的比较。 表 2 显示了 LRS3 上的非流式评估结果。我们的视听模型,其算法延迟为 800 毫秒 (160ms+1280msx0.5),词错误率 (WER) 为 1.3%,与 AV-HuBERT、RAVEn 和 Auto-AVSR 等现有最佳离线模型取得的结果相当。
方法 | 总时长(小时) | WER (%) |
ViT3D-CM | 90, 000 | 1.6 |
AV-HuBERT | 1, 759 | 1.4 |
RAVEn | 1, 759 | 1.4 |
AutoAVSR | 3, 448 | 0.9 |
本文模型 | 3, 068 | 1.3 |
表 2:LRS3 数据集上视听模型的非流式评估结果。
噪声实验。 在训练过程中,我们将 16 种不同的噪声类型随机注入音频波形中,包括来自 Demand 数据库的 13 种类型:‘DLIVING’、‘DKITCHEN’、‘OMEETING’、‘OOFFICE’、‘PCAFETER’、‘PRESTO’、‘PSTATION’、‘STRAFFIC’、‘SPSQUARE’、‘SCAFE’、‘TMETRO’、‘TBUS’ 和 ‘TCAR’;来自 speech commands 数据库的另外两种噪声类型:white 和 pink;以及来自 NOISEX-92 数据库的另一种噪声类型:babble noise。信噪比 (SNR) 水平在 [clean, 7.5dB, 2.5dB, -2.5dB, -7.5dB] 范围内以均匀分布选择。表 3 显示了 ASR 和 AV-ASR 模型在 babble noise 测试下的结果。随着噪声水平的增加,我们的视听模型相对于纯音频模型的性能优势越来越大,这表明整合视觉数据提高了噪声鲁棒性。
类型 | ∞ | 10dB | 5dB | 0dB | -5dB | -10dB |
A | 1.6 | 1.8 | 3.2 | 10.9 | 27.9 | 55.5 |
A+V | 1.6 | 1.7 | 2.1 | 6.2 | 11.7 | 27.6 |
表 3:在 0.80 秒延迟限制下,纯音频 (A) 和视听 (A+V) 模型在 LRS3 数据集上不同信噪比下的流式评估 WER (%) 结果。
实时因子。实时因子 (RTF) 是衡量系统高效处理实时任务能力的重要指标。RTF 值小于 1 表示系统满足实时要求。我们使用一台配备 Intel® Core™ i7-12700 CPU (2.70 GHz) 和 NVIDIA 3070 GeForce RTX 3070 Ti GPU 的笔记本电脑来测量 RTF。据我们所知,这是第一个在 LRS3 基准测试中报告 RTF 的 AV-ASR 模型。Small 模型在 CPU 上的 WER 达到 2.6%,RTF 为 0.87(表 4),这表明其在实时设备端推理应用方面的潜力。
模型 | 设备 | 流式 WER [%] | RTF |
大型 | GPU | 1.6 | 0.35 |
小型 | GPU | 2.6 | 0.33 |
CPU | 0.87 |
表 4:AV-ASR 模型尺寸和设备对 WER 和 RTF 的影响。请注意,RTF 计算包括预处理步骤,其中使用 Ultra-Lightweight Face Detection Slim 320 模型生成人脸边界框。
从以下已发表的工作中了解更多关于该系统的信息
- Shi, Yangyang, Yongqiang Wang, Chunyang Wu, Ching-Feng Yeh, Julian Chan, Frank Zhang, Duc Le, and Mike Seltzer. “Emformer: 高效内存 Transformer 声学模型用于低延迟流式语音识别。” 载于 ICASSP 2021-2021 IEEE 声学、语音与信号处理国际会议 (ICASSP),第 6783-6787 页。IEEE,2021。
- Ma, Pingchuan, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie Chen, Stavros Petridis, and Maja Pantic. “Auto-AVSR: 自动标注的视听语音识别。” 载于 ICASSP 2023-2023 IEEE 声学、语音与信号处理国际会议 (ICASSP),第 1-5 页。IEEE,2023。