因此,Vosk-api是一款出色的离线语音识别器,在本文发布时(2020年8月14日),它提供了出色的支持,但是文档非常糟糕(或巧妙地隐藏了)。
问题是:是否可以替换 google-speech-recognizer 功能,从而通过语音适应来进一步改善转录?
例如
"config": {
"encoding":"LINEAR16","sampleRateHertz": 8000,"languageCode":"en-US","speechContexts": [{
"phrases": ["weather"]
}]
}
对于Google而言,此配置意味着与是否听起来一样,短语天气具有更高的优先级。
还是类令牌? 我了解它可能无法在Vosk for python3中实现,但仍然...
以下是参考文献:
https://cloud.google.com/speech-to-text/docs/class-tokens
https://cloud.google.com/speech-to-text/docs/speech-adaptation