问题描述
我们有一个3k +文件的视频库,其中大多数是技术会议和市政厅(单声道),带有1-10个扬声器。现在,我们要运行说话者二值化过程。
我们尝试使用批处理转录REST API
https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md
但似乎只限2个扬声器。
我们还研究了会话转录服务https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/conversation-transcription
但需要多通道音频流输入。
请您推荐我们可以使用哪种认知服务工具来解决我们的任务?
谢谢!
解决方法
正如您所注意到的,批处理当前仅限于2人进行数字化处理。我们预计在11月/ 12月将有一个新的数字化提供程序批量使用,它将在单声道输入音频流上支持10个扬声器。
我目前不知道任何可以满足您需求的认知服务工具。
thx 沃尔夫冈