注意

单击此处下载完整的示例代码

使用 Wav2Vec2 进行语音识别¶

作者: Moto Hira

本教程展示了如何使用 wav2vec 2.0 [论文] 中的预训练模型执行语音识别。

概述¶

语音识别的过程如下所示。

从音频波形中提取声学特征
逐帧估计声学特征的类别
根据类别概率序列生成假设

Torchaudio 可以轻松访问预训练权重和相关信息，例如预期的采样率和类别标签。它们被捆绑在一起，可在 torchaudio.pipelines 模块中使用。

准备¶

import torch
import torchaudio

print(torch.__version__)
print(torchaudio.__version__)

torch.random.manual_seed(0)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print(device)

2.3.0
2.3.0
cuda

import IPython
import matplotlib.pyplot as plt
from torchaudio.utils import download_asset

SPEECH_FILE = download_asset("tutorial-assets/Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.wav")

  0%|          | 0.00/106k [00:00<?, ?B/s]
100%|##########| 106k/106k [00:00<00:00, 44.4MB/s]

创建管道¶

首先，我们将创建一个 Wav2Vec2 模型，该模型执行特征提取和分类。

torchaudio 中提供了两种类型的 Wav2Vec2 预训练权重。一种是针对 ASR 任务微调的，另一种是未微调的。

Wav2Vec2（和 HuBERT）模型以自监督的方式进行训练。它们首先仅使用音频进行表示学习，然后使用其他标签针对特定任务进行微调。

未进行微调的预训练权重也可以针对其他下游任务进行微调，但本教程不涉及此内容。

我们将在此处使用 torchaudio.pipelines.WAV2VEC2_ASR_BASE_960H。

在 torchaudio.pipelines 中提供了多个预训练模型。请查看文档以了解其训练详情。

捆绑对象提供了实例化模型和其他信息的接口。采样率和类别标签的查找方式如下。

bundle = torchaudio.pipelines.WAV2VEC2_ASR_BASE_960H

print("Sample Rate:", bundle.sample_rate)

print("Labels:", bundle.get_labels())

Sample Rate: 16000
Labels: ('-', '|', 'E', 'T', 'A', 'O', 'N', 'I', 'H', 'S', 'R', 'D', 'L', 'U', 'M', 'W', 'C', 'F', 'G', 'Y', 'P', 'B', 'V', 'K', "'", 'X', 'J', 'Q', 'Z')

模型可以按照如下方式构建。此过程将自动获取预训练权重并将其加载到模型中。

model = bundle.get_model().to(device)

print(model.__class__)

Downloading: "https://download.pytorch.org/torchaudio/models/wav2vec2_fairseq_base_ls960_asr_ls960.pth" to /root/.cache/torch/hub/checkpoints/wav2vec2_fairseq_base_ls960_asr_ls960.pth

  0%|          | 0.00/360M [00:00<?, ?B/s]
  6%|5         | 20.0M/360M [00:00<00:01, 209MB/s]
 13%|#2        | 45.6M/360M [00:00<00:01, 243MB/s]
 22%|##1       | 78.6M/360M [00:00<00:01, 289MB/s]
 30%|###       | 109M/360M [00:00<00:00, 302MB/s]
 42%|####1     | 151M/360M [00:00<00:00, 349MB/s]
 52%|#####1    | 187M/360M [00:00<00:00, 358MB/s]
 61%|######1   | 221M/360M [00:00<00:00, 346MB/s]
 71%|#######   | 254M/360M [00:00<00:00, 339MB/s]
 80%|#######9  | 286M/360M [00:00<00:00, 332MB/s]
 90%|########9 | 323M/360M [00:01<00:00, 344MB/s]
 99%|#########8| 356M/360M [00:01<00:00, 345MB/s]
100%|##########| 360M/360M [00:01<00:00, 330MB/s]
<class 'torchaudio.models.wav2vec2.model.Wav2Vec2Model'>

加载数据¶

我们将使用来自 VOiCES 数据集的语音数据，该数据集在知识共享署名 4.0 许可下获得许可。

IPython.display.Audio(SPEECH_FILE)

要加载数据，我们使用 torchaudio.load()。

如果采样率与管道期望的采样率不同，则我们可以使用 torchaudio.functional.resample() 进行重新采样。

注意

torchaudio.functional.resample() 也适用于 CUDA 张量。
在同一组采样率上多次执行重新采样时，使用 torchaudio.transforms.Resample 可能会提高性能。

waveform, sample_rate = torchaudio.load(SPEECH_FILE)
waveform = waveform.to(device)

if sample_rate != bundle.sample_rate:
    waveform = torchaudio.functional.resample(waveform, sample_rate, bundle.sample_rate)

提取声学特征¶

下一步是从音频中提取声学特征。

注意

针对 ASR 任务微调的 Wav2Vec2 模型可以通过一步执行特征提取和分类，但为了本教程，我们还将展示如何在此处执行特征提取。

with torch.inference_mode():
    features, _ = model.extract_features(waveform)

/pytorch/audio/ci_env/lib/python3.10/site-packages/torch/nn/modules/conv.py:306: UserWarning: Plan failed with a cudnnException: CUDNN_BACKEND_EXECUTION_PLAN_DESCRIPTOR: cudnnFinalize Descriptor Failed cudnn_status: CUDNN_STATUS_NOT_SUPPORTED (Triggered internally at /opt/conda/conda-bld/pytorch_1712608839953/work/aten/src/ATen/native/cudnn/Conv_v8.cpp:919.)
  return F.conv1d(input, weight, bias, self.stride,

返回的特征是张量列表。每个张量都是变压器层的输出。

fig, ax = plt.subplots(len(features), 1, figsize=(16, 4.3 * len(features)))
for i, feats in enumerate(features):
    ax[i].imshow(feats[0].cpu(), interpolation="nearest")
    ax[i].set_title(f"Feature from transformer layer {i+1}")
    ax[i].set_xlabel("Feature dimension")
    ax[i].set_ylabel("Frame (time-axis)")
fig.tight_layout()

Feature from transformer layer 1, Feature from transformer layer 2, Feature from transformer layer 3, Feature from transformer layer 4, Feature from transformer layer 5, Feature from transformer layer 6, Feature from transformer layer 7, Feature from transformer layer 8, Feature from transformer layer 9, Feature from transformer layer 10, Feature from transformer layer 11, Feature from transformer layer 12

特征分类¶

提取声学特征后，下一步是将它们分类到一组类别中。

Wav2Vec2 模型提供了通过一步执行特征提取和分类的方法。

with torch.inference_mode():
    emission, _ = model(waveform)

输出采用对数几率的形式。它不采用概率的形式。

我们来可视化一下。

plt.imshow(emission[0].cpu().T, interpolation="nearest")
plt.title("Classification result")
plt.xlabel("Frame (time-axis)")
plt.ylabel("Class")
plt.tight_layout()
print("Class labels:", bundle.get_labels())

Class labels: ('-', '|', 'E', 'T', 'A', 'O', 'N', 'I', 'H', 'S', 'R', 'D', 'L', 'U', 'M', 'W', 'C', 'F', 'G', 'Y', 'P', 'B', 'V', 'K', "'", 'X', 'J', 'Q', 'Z')

我们可以看到，在时间线上有指向某些标签的强烈指示。

生成转录¶

现在，我们想要从标签概率序列中生成转录。生成假设的过程通常称为“解码”。

解码比简单的分类更复杂，因为特定时间步长的解码可能会受到周围观测结果的影响。

例如，以 night 和 knight 这样的单词为例。即使它们的先验概率分布不同（在典型的对话中，night 的出现频率远高于 knight），为了准确生成带有 knight 的转录，例如 a knight with a sword，解码过程必须推迟最终决定，直到看到足够的上下文。

已经提出了许多解码技术，它们需要外部资源，例如单词词典和语言模型。

在本教程中，为了简单起见，我们将执行贪婪解码，它不依赖于此类外部组件，并且只在每个时间步长中选取最佳假设。因此，不会使用上下文信息，并且只能生成一个转录。

我们从定义贪婪解码算法开始。

class GreedyCTCDecoder(torch.nn.Module):
    def __init__(self, labels, blank=0):
        super().__init__()
        self.labels = labels
        self.blank = blank

    def forward(self, emission: torch.Tensor) -> str:
        """Given a sequence emission over labels, get the best path string
        Args:
          emission (Tensor): Logit tensors. Shape `[num_seq, num_label]`.

        Returns:
          str: The resulting transcript
        """
        indices = torch.argmax(emission, dim=-1)  # [num_seq,]
        indices = torch.unique_consecutive(indices, dim=-1)
        indices = [i for i in indices if i != self.blank]
        return "".join([self.labels[i] for i in indices])

现在创建解码器对象并解码转录。

decoder = GreedyCTCDecoder(labels=bundle.get_labels())
transcript = decoder(emission[0])

让我们检查结果并再次收听音频。

print(transcript)
IPython.display.Audio(SPEECH_FILE)

I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|

ASR 模型使用称为连接主义时序分类 (CTC) 的损失函数进行微调。CTC 损失的详细信息在此处进行了解释 here。在 CTC 中，空白令牌 (ϵ) 是一个特殊令牌，表示重复前一个符号。在解码中，这些会被简单地忽略。

结论¶

在本教程中，我们了解了如何使用 Wav2Vec2ASRBundle 执行声学特征提取和语音识别。构建模型并获取发射只需两行即可。

model = torchaudio.pipelines.WAV2VEC2_ASR_BASE_960H.get_model()
emission = model(waveforms, ...)

脚本的总运行时间：（0 分钟 6.845 秒）

图库由 Sphinx-Gallery 生成