适用于3个以上参与者的演讲者差异化工具

编程问答 2022-06-12

问题描述

我们有一个3k +文件的视频库，其中大多数是技术会议和市政厅（单声道），带有1-10个扬声器。现在，我们要运行说话者二值化过程。我们尝试使用批处理转录REST API
https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md 但似乎只限2个扬声器。我们还研究了会话转录服务https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/conversation-transcription 但需要多通道音频流输入。

请您推荐我们可以使用哪种认知服务工具来解决我们的任务？

谢谢！

解决方法

正如您所注意到的，批处理当前仅限于2人进行数字化处理。我们预计在11月/ 12月将有一个新的数字化提供程序批量使用，它将在单声道输入音频流上支持10个扬声器。

我目前不知道任何可以满足您需求的认知服务工具。

thx 沃尔夫冈

azure-cognitive-services microsoft-cognitive speaker speech-recognition

相关问答

Selenium Web驱动程序和Java元素在(x，y)点处不可单击其他元素将获得点击?

Selenium Web驱动程序和Java。元素在(x，y)点处不可单击。其...

Python-如何使用点“” 访问字典成员？

Python-如何使用点“。” 访问字典成员？

Java 字符串是不可变的到底是什么意思？

Java 字符串是不可变的。到底是什么意思？

Java中的“ final”关键字如何工作？我仍然可以修改对象

Java中的“ final”关键字如何工作？（我仍然可以修改对象。...

“loop:”在Java代码中这是什么，为什么要编译？

“loop:”在Java代码中。这是什么，为什么要编译？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常为什么？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbc...