Silero 文本转语音模型

# this assumes that you have a proper version of PyTorch already installed
pip install -q torchaudio omegaconf

import torch

language = 'en'
speaker = 'lj_16khz'
device = torch.device('cpu')
model, symbols, sample_rate, example_text, apply_tts = torch.hub.load(repo_or_dir='snakers4/silero-models',
                                                                      model='silero_tts',
                                                                      language=language,
                                                                      speaker=speaker)
model = model.to(device)  # gpu or cpu
audio = apply_tts(texts=[example_text],
                  model=model,
                  sample_rate=sample_rate,
                  symbols=symbols,
                  device=device)

模型描述

Silero 文本转语音模型以紧凑的尺寸为多种常用语言提供企业级文本转语音功能

一行代码即可使用
自然发音
无需 GPU 或训练
极简主义，无依赖
多种语言的语音库
原生支持 16kHz 和 8kHz
在慢速硬件上实现高吞吐量。在单个 CPU 线程上表现良好

支持的语言和格式

截至本页面更新，以下语言的说话人支持 8 kHz 和 16 kHz 两种格式

俄语（6 位说话人）
英语（1 位说话人）
德语（1 位说话人）
西班牙语（1 位说话人）
法语（1 位说话人）

要查看始终保持最新状态的语言列表，请访问我们的存储库，并查看 yml 文件以获取所有可用的检查点。

其他示例和基准测试

如需更多示例和其他模型格式，请访问此链接。如需质量和性能基准测试，请参阅维基。这些资源会不定期更新。

参考文献

一套紧凑的企业级多语言预训练文本转语音模型

模型类型： 音频 | 可脚本化

提交者： Silero AI 团队

在 GitHub 上查看 5.5k

在Google Collab上打开