适用于3个以上参与者的演讲者差异化工具

问题描述

我们有一个3k +文件的视频库,其中大多数是技术会议和市政厅(单声道),带有1-10个扬声器。现在,我们要运行说话者二值化过程。 我们尝试使用批处理转录REST API
https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md 但似乎只限2个扬声器。 我们还研究了会话转录服务https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/conversation-transcription 但需要多通道音频流输入。

请您推荐我们可以使用哪种认知服务工具来解决我们的任务?

谢谢!

解决方法

正如您所注意到的,批处理当前仅限于2人进行数字化处理。我们预计在11月/ 12月将有一个新的数字化提供程序批量使用,它将在单声道输入音频流上支持10个扬声器。

我目前不知道任何可以满足您需求的认知服务工具。

thx 沃尔夫冈

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...