Azure 语音翻译:如何仅在检测到语音时激活识别?

问题描述

我目前正在开发一个实时翻译网络应用程序,允许多个参与者使用 Azure Speech Translation 并以多种语言共享他们的转录。

我不想为参与者人数 X 会议持续时间付费。因此问题是:如何仅在检测到语音时激活识别?这样,我只会为当前发言的人付费。

我尝试使用 TranslationRecognizer class 中的 speechStartDetected 事件,但此事件似乎仅在识别器当前正在识别(使用 recognizeOnceAsync()startContinuousRecognitionAsync())时才会触发

语音 SDK 中是否有任何参数可用于实现我想要的功能?如果没有,我有哪些选择?

可能可以观看音频 dB 级别并相应地激活连续识别,但我想如果我尝试这样做会遇到一些问题。例如:一旦音频电平在一定时间内达到一定电平,这将触发 startContinuousRecognitionAsync(),但会错过语音的开头......

提前致谢!

解决方法

实时通话的实时 speech to text 解决方案,借助 Speech to Text,您可以根据您转录的 number of hours of audio 按需付费。 了解如何在 https://docs.microsoft.com/en-us/azure/billing/billing-download-azure-invoice-daily-usage-date

查看您的帐单和使用数据