Azure diarization扬声器分离不起作用

问题描述

我能够运行这段代码并获得音频文件的转录。 但它不区分说话者(结果总是显示“说话者 1”,永远无法识别“说话者 2”)。

https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/master/samples/batch/python/python-client/main.py

我一直在使用的文件示例:

英文: https://transcripttests.blob.core.windows.net/testfiles/pulpfiction.mp3

法语: https://transcripttests.blob.core.windows.net/testfiles/dialogue50smono44100.wav

解决方法

感谢您报告此问题。我可以确认您的问题,即两个音频只能识别 1 个扬声器。我们正在与我们的分类科学家团队一起检查这个问题的根本原因,并将很快回复您。给您带来不便敬请谅解!

,

更新:

我们最近发布了一个新版本,第一个音频(英文)应该产生 2 个扬声器。请检查并让我们知道是否有任何问题。

至于第二个音频(法语),这个更复杂,我们的科学家正在研究它。会让你保持更新。谢谢!


原文:

感谢您的耐心等待。我们知道并可以重现该问题。

对于第一个音频(英语),两个说话者都是男性并且非常相似,这就是我们的分类服务没有区分他们的一个原因。

对于第二个音频(法语),有3个来自女说话者的话语,#2和#3很短,而#1恰好被我们的系统拆分为2个短话语,所以它们都不是视为演讲者 2。

我们的科学家正在积极致力于此,但目前还没有确切的预计到达时间。一旦我们有更新,我会通知你。谢谢!