torchaudio.functional.vad¶
- torchaudio.functional.vad(waveform: Tensor, sample_rate: int, trigger_level: float = 7.0, trigger_time: float = 0.25, search_time: float = 1.0, allowed_gap: float = 0.25, pre_trigger_time: float = 0.0, boot_time: float = 0.35, noise_up_time: float = 0.1, noise_down_time: float = 0.01, noise_reduction_amount: float = 1.35, measure_freq: float = 20.0, measure_duration: Optional[float] = None, measure_smooth_time: float = 0.4, hp_filter_freq: float = 50.0, lp_filter_freq: float = 6000.0, hp_lifter_freq: float = 150.0, lp_lifter_freq: float = 2000.0) Tensor [source]¶
语音活动检测器。类似于 SoX 实现。
尝试从语音录音的末尾修剪静音和安静的背景声音。该算法目前使用简单的倒谱功率测量来检测语音,因此可能会被其他声音(尤其是音乐)误导。
该效果只能从音频的前面进行修剪,因此要从后面修剪,还必须使用反向效果。
- 参数:
waveform (Tensor) – 维度为 (channels, time) 或 (time) 的音频张量。形状为 (channels, time) 的张量被视为同一事件的多通道录音,其输出将被修剪到任一通道中最早的语音活动处。
sample_rate (int) – 音频信号的采样率。
trigger_level (float, optional) – 用于触发活动检测的测量级别。可能需要根据输入音频的噪声级别、信号级别和其他特性进行更改。(默认值: 7.0)
trigger_time (float, optional) – 用于忽略短促声音爆发的时间常数(以秒为单位)。(默认值: 0.25)
search_time (float, optional) – 在检测到的触发点之前搜索的音频量(以秒为单位),以包含更安静/更短的音频爆发。(默认值: 1.0)
allowed_gap (float, optional) – 在检测到的触发点之前,包含的更安静/更短的音频爆发之间允许的间隔(以秒为单位)。(默认值: 0.25)
pre_trigger_time (float, optional) – 在触发点和任何找到的更安静/更短爆发之前保留的音频量(以秒为单位)。(默认值: 0.0)
boot_time (float, optional) 该算法 (python:internally) – 估计/降低以检测所需音频的开始。此选项设置初始噪声估计的时间。(默认值: 0.35)
noise_up_time (float, optional) – 用于噪声级别升高时。(默认值: 0.1)
noise_down_time (float, optional) – 用于噪声级别降低时。(默认值: 0.01)
noise_reduction_amount (float, optional) – 检测算法(例如 0, 0.5, ...)。(默认值: 1.35)
measure_freq (float, optional) – 处理/测量频率。(默认值: 20.0)
measure_duration – (float, optional) 测量持续时间。(默认值: 测量周期的两倍;即有重叠。)
measure_smooth_time (float, optional) – 光谱测量平滑时间。(默认值: 0.4)
hp_filter_freq (float, optional) – 检测算法输入的 HP 滤波器频率。(默认值: 50.0)
lp_filter_freq (float, optional) – 检测算法输入的 LP 滤波器频率。(默认值: 6000.0)
hp_lifter_freq (float, optional) – 检测算法中的 HP lifter 频率。(默认值: 150.0)
lp_lifter_freq (float, optional) – 检测算法中的 LP lifter 频率。(默认值: 2000.0)
- 返回:
维度为 (…, time) 的音频张量。
- 返回类型:
Tensor