以48kHz采样的语音转文本语音训练数据是否仍有助于改善16kHz语音的识别

问题描述

我们正在根据documentation,使用以.wav(RIFF)格式记录的数据以16位,16kHz的数据训练Azure认知服务自定义语音模型。

但是,我们已经获得了以48kHz记录并编码为MP3的语音数据集。 Speech Studio似乎能够使用此数据毫无问题地训练服务,但我们想知道这样做是否以较高的采样率仅以较高的速率用于识别流式数据,或者这无关紧要?

解决方法

就音频质量而言,具有与您描述的采样率相同的较高采样率是理想的,但通常不会影响语音识别。只要满足音频格式的最低要求,语音识别就可以正常工作。