VCTK_092¶

class torchaudio.datasets.VCTK_092(root: str, mic_id: str = 'mic2', download: bool = False, url: str = 'https://datashare.is.ed.ac.uk/bitstream/handle/10283/3443/VCTK-Corpus-0.92.zip', audio_ext='.flac')[源代码]¶

VCTK 0.92 [Yamagishi 等人，2019] 数据集

参数：

root (str) – 数据集顶级目录所在的根目录。
mic_id (str, 可选) – 麦克风 ID。可以是 "mic1" 或 "mic2"。（默认值："mic2"）
download (bool, 可选) – 如果在根路径未找到数据集，是否下载。（默认值：False）。
url (str, 可选) – 数据集的下载 URL。（默认值："https://datashare.is.ed.ac.uk/bitstream/handle/10283/3443/VCTK-Corpus-0.92.zip"）
audio_ext (str, 可选) – 如果数据集转换为非默认音频格式，则为自定义音频扩展名。

注意

来自说话人 p315 的所有语音都将被跳过，因为缺少对应的文本文件。
来自说话人 p280 的所有语音对于 mic_id="mic2" 都将被跳过，因为缺少音频文件。
来自说话人 p362 的部分语音将因缺少音频文件而被跳过。
另请参阅：https://datashare.is.ed.ac.uk/handle/10283/3443

getitem¶

VCTK_092.__getitem__(n: int) → Tuple[Tensor, int, str, str, str][源代码]¶

从数据集中加载第 n 个样本。

参数：

n (int) – 要加载样本的索引

返回值：

包含以下项的元组；

Tensor: 波形
int: 采样率
str: 转录文本
str: 说话人 ID
str: 话语 ID

VCTK_092¶

getitem¶

文档

教程

资源

VCTK_092¶

__getitem__¶

文档

教程

资源

getitem¶