VOXPOPULI_ASR_BASE_10K_FR¶

torchaudio.pipelines.VOXPOPULI_ASR_BASE_10K_FR¶

wav2vec 2.0 模型（“base”架构），使用 VoxPopuli 数据集 [Wang 等人, 2021] 中 10k 小时未标注音频（“10k”子集，包含 23 种语言）进行预训练，并使用“fr”子集中 211 小时已转录音频对 ASR 进行微调。

最初由 VoxPopuli [Wang 等人, 2021] 的作者在 CC BY-NC 4.0 下发布，并使用相同许可进行再分发。 [许可, 源码]