快捷方式

torchaudio.functional.vad

torchaudio.functional.vad(waveform: Tensor, sample_rate: int, trigger_level: float = 7.0, trigger_time: float = 0.25, search_time: float = 1.0, allowed_gap: float = 0.25, pre_trigger_time: float = 0.0, boot_time: float = 0.35, noise_up_time: float = 0.1, noise_down_time: float = 0.01, noise_reduction_amount: float = 1.35, measure_freq: float = 20.0, measure_duration: Optional[float] = None, measure_smooth_time: float = 0.4, hp_filter_freq: float = 50.0, lp_filter_freq: float = 6000.0, hp_lifter_freq: float = 150.0, lp_lifter_freq: float = 2000.0) Tensor[source]

语音活动检测器。类似于 SoX 实现。

This feature supports the following devices: CPU, CUDA This API supports the following properties: TorchScript

尝试从语音录音的末端修剪掉静音和安静的背景声音。该算法目前使用简单的倒谱功率测量来检测语音,因此可能会被其他事物(尤其是音乐)所误解。

该效果只能从音频的前面修剪,因此要从后面修剪,必须使用反向效果。

参数:
  • waveform (Tensor) – 形状为 (通道,时间)(时间) 的音频张量形状为 (通道,时间) 的张量被视为同一事件的多通道录音,结果输出将被修剪为任何通道中最早的语音活动。

  • sample_rate (int) – 音频信号的采样率。

  • trigger_level (float, 可选) – 用于触发活动检测的测量级别。这可能需要根据输入音频的噪声级别、信号级别和其他特征进行更改。(默认值:7.0)

  • trigger_time (float, 可选) – 用于帮助忽略短暂声音的时常(以秒为单位)。(默认值:0.25)

  • search_time (float, 可选) – 搜索更安静/更短的音频片段的音频量(以秒为单位),以包含在检测到的触发点之前。(默认值:1.0)

  • allowed_gap (float, 可选) – 在检测到的触发点之前包含的更安静/更短的音频片段之间允许的间隙(以秒为单位)。(默认值:0.25)

  • pre_trigger_time (float, 可选) – 在触发点和任何找到的更安静/更短的片段之前保留的音频量(以秒为单位)。(默认值:0.0)

  • boot_time (float, 可选) 该算法 (python:内部) – 估计/减少以检测所需音频的开始。此选项设置初始噪声估计的时间。(默认值:0.35)

  • noise_up_time (float, 可选) – 用于噪声级别增加时。(默认值:0.1)

  • noise_down_time (float, 可选) – 用于噪声级别降低时。(默认值:0.01)

  • noise_reduction_amount (float, 可选) – 检测算法(例如 0、0.5、…)。(默认值:1.35)

  • measure_freq (float, 可选) – 处理/测量。(默认值:20.0)

  • measure_duration – (float, 可选) 测量持续时间。(默认值:测量周期的两倍;即重叠。)

  • measure_smooth_time (float, 可选) – 谱测量。(默认值:0.4)

  • hp_filter_freq (float, 可选) – 在检测器算法的输入端。(默认值:50.0)

  • lp_filter_freq (float, 可选) – 在检测器算法的输入端。(默认值:6000.0)

  • hp_lifter_freq (float, 可选) – 在检测器算法中。(默认值:150.0)

  • lp_lifter_freq (float, 可选) – 在检测器算法中。(默认值:2000.0)

返回:

维度为 (…, time) 的音频张量。

返回类型:

张量

参考

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并获得您的问题解答

查看资源