Silero 文本转语音模型
# this assumes that you have a proper version of PyTorch already installed
pip install -q torchaudio omegaconf
import torch
language = 'en'
speaker = 'lj_16khz'
device = torch.device('cpu')
model, symbols, sample_rate, example_text, apply_tts = torch.hub.load(repo_or_dir='snakers4/silero-models',
model='silero_tts',
language=language,
speaker=speaker)
model = model.to(device) # gpu or cpu
audio = apply_tts(texts=[example_text],
model=model,
sample_rate=sample_rate,
symbols=symbols,
device=device)
模型描述
Silero 文本转语音(TTS)模型以紧凑的形式为多种常用语言提供企业级的 TTS 功能
- 一行代码即可使用
- 听感自然的语音
- 无需 GPU 或训练
- 极简主义且无依赖
- 包含多种语言的语音库
- 开箱即用,支持
16kHz和8kHz - 在低性能硬件上具有高吞吐量。在单个 CPU 线程上表现良好
支持的语言和格式
截至本页面更新时,以下语言的说话人均支持 8 kHz 和 16 kHz 采样率
- 俄语(6 个说话人)
- 英语(1 个说话人)
- 德语(1 个说话人)
- 西班牙语(1 个说话人)
- 法语(1 个说话人)
如需查看始终保持更新的语言列表,请访问我们的 仓库,并查看 yml 文件以获取所有可用的检查点。
其他示例和基准测试
如需其他示例和模型格式,请访问此 链接。有关质量和性能基准测试,请参阅 维基(Wiki)。这些资源将不定期更新。
参考资料