Azure 的 Speech to Text 服务是否接受 Webm 音频并提供带有时间戳的输出?

问题描述

我正在尝试确定 Azure 是否是满足我的转录需求的最佳平台。

我有两个问题——Azure 的 Speech to Text 服务:

  1. 接受 Webm 音频作为输入?
  2. 它是否提供带有时间戳的输出

解决方法

据我所知,MS Cognitive Services Speech to text 只接受 WAV 或 OGG 音频文件,我认为它不能处理 Webm、MKV 等容器。

我们是一家名为 3Scribe 的新转录初创公司(我们认为是市场上最准确的),可以将 Webm 容器作为输入处理。我们的 JSON 输出上有时间戳,并且即将推出我们的自定义输出,因此如果您正在寻找特定的内容,请在我们的支持电子邮件中给我们留言。如果您想注册并让我们知道引用此线程,我可以为您向您的帐户添加一些额外的信用。

,

微软语音 SDK 也支持 webm 容器。请遵循以下示例。请将 webm 文件和格式的文件名更改为 AudioStreamContainerFormat.ANY。您还需要在客户端计算机上安装 gstreamer。

https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/770e1094a94ab67febeb737f2a4fb75c591b8231/samples/csharp/sharedcontent/console/speech_recognition_samples.cs#L248

顺便说一下,您使用的是哪个平台和哪种语言?

我们还支持带有转录实际偏移量的时间戳。 json 输出将类似于 {"Id":"1384bb2080b54ce6bec99e3342092610","RecognitionStatus":"Success","DisplayText":"是什么让你来到守门人之地?","Offset":120100000,"Duration":24700>000

您可以在其中看到从流开头的偏移量和整个文本的持续时间。