Vosk 说话人识别

问题描述

我目前正在应用程序中实现 Vosk Speech recognition。特别关注说话人识别，我已经从示例中实现了 test_speaker.py 并且它是功能性的。作为新手，我如何识别和/或创建参考扬声器签名？使用提供的一个，使用我的音频示例计算的距离列表并未描绘所涉及的两个扬声器：

[1.0182311997728735,0.8679279016022726,0.8552687907177629,1.0258941854519696,0.8666933753723253,0.9291881495586336,1.0316585805917928,1.0227699471036409,0.8442800102809634,0.9093189414477789,0.9153723223264221,0.9705387223260904,0.9077720598812595,0.9524431272217568,0.9179475137290445]

如果没有一种有效的方法可以从被分析的音频中计算参考扬声器，您是否知道可以与 Vosk 一起使用以识别音频文件中的扬声器的另一种解决方案？如果没有，您会建议其他哪些语音到文本选项？（我已经玩过谷歌了）

提前致谢

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

nlp speech-recognition transcription vosk