SPEECHCOMMANDS¶

class torchaudio.datasets.SPEECHCOMMANDS(root: Union[str, Path], url: str = 'speech_commands_v0.02', folder_in_archive: str = 'SpeechCommands', download: bool = False, subset: Optional[str] = None)[源]¶

Speech Commands [Warden, 2018] 数据集。

参数：

root (str 或 Path) – 数据集所在或下载到的目录路径。
url (str, optional) – 下载数据集的 URL，或要下载的数据集类型。允许的类型值为 "speech_commands_v0.01" 和 "speech_commands_v0.02" (默认值: "speech_commands_v0.02")
folder_in_archive (str, optional) – 数据集的顶级目录。(默认值: "SpeechCommands")
download (bool, optional) – 如果在 root 路径下找不到数据集，是否下载。(默认值: False)。
subset (str 或 None, optional) – 选择数据集的子集 [None, "training", "validation", "testing"]。None 表示整个数据集。"validation" 和 "testing" 分别定义在 "validation_list.txt" 和 "testing_list.txt" 中，"training" 是其余部分。文件 "validation_list.txt" 和 "testing_list.txt" 的详细信息在数据集的 README 以及原始论文第 7 节的介绍及其参考文献 12 中有解释。原始论文可以在这里找到。(默认值: None)

getitem¶

SPEECHCOMMANDS.__getitem__(n: int) → Tuple[Tensor, int, str, str, int][源]¶

从数据集中加载第 n 个样本。

参数：

n (int) – 要加载的样本的索引

返回：

包含以下项的元组；

Tensor: 波形
int: 采样率
str: 标签
str: 说话人 ID
int: 话语编号

get_metadata¶

SPEECHCOMMANDS.get_metadata(n: int) → Tuple[str, int, str, str, int][源]¶

从数据集中获取第 n 个样本的元数据。返回文件路径而不是波形，但其他字段与 __getitem__() 返回的相同。

参数：

n (int) – 要加载的样本的索引

返回：

包含以下项的元组；

str: 音频路径
int: 采样率
str: 标签
str: 说话人 ID
int: 话语编号

SPEECHCOMMANDS¶

getitem¶

get_metadata¶

文档

教程

资源

SPEECHCOMMANDS¶

__getitem__¶

get_metadata¶

文档

教程

资源

getitem¶