WAV2VEC2_ASR_LARGE_960H¶

torchaudio.pipelines.WAV2VEC2_ASR_LARGE_960H¶

Wav2vec 2.0 模型（“大型”架构，带有额外的线性模块），在 LibriSpeech 数据集 [Panayotov 等人，2015] 中 960 小时的未标注音频上进行预训练（组合了“train-clean-100”、“train-clean-360”和“train-other-500”），并使用相应的文本在相同的音频上针对 ASR 进行了微调。

由 wav2vec 2.0 的作者 [Baevski 等人，2020] 最初在 MIT 许可证下发布，并使用相同的许可证重新分发。 [许可证, 来源]