使用 Python 将音频的非语音部分静音/静音语音活动检测

问题描述

我的目的是让 .wav 音频中没有语音的所有部分静音。我目前正在使用 webrtcvad,但我实现的只是从音频中删除非语音部分(使用他们的 example.py 代码https://github.com/wiseman/py-webrtcvad/blob/master/example.py)。如果有人能指出我或告诉我如何实现我的目标,我将不胜感激!这听起来也像是去除背景噪音的问题。

解决方法

假设您希望 WAV 输出与输入具有相同的持续时间,只是将非语音区域替换为静音,而语音区域不变。

这样做的方法是将音频信号与检测器的输出相乘。检测器应输出 1.0 表示通过(语音信号),0.0 表示静音(非语音)。

有时,阻塞部分会使用一个较小的值而不是 0.0,以稍微降低音量,而不会使其成为纯粹的静音。例如 0.01 (-20 dB)。

有时突然的过渡可能有点粗糙。在这种情况下,可以应用一些平滑或淡化。一个简单的替代方法是指数移动平均线。