Vosk 说话人识别

问题描述

我目前正在应用程序中实现 Vosk Speech recognition。特别关注说话人识别,我已经从示例中实现了 test_speaker.py 并且它是功能性的。 作为新手,我如何识别和/或创建参考扬声器签名? 使用提供的一个,使用我的音频示例计算的距离列表并未描绘所涉及的两个扬声器:

[1.0182311997728735,0.8679279016022726,0.8552687907177629,1.0258941854519696,0.8666933753723253,0.9291881495586336,1.0316585805917928,1.0227699471036409,0.8442800102809634,0.9093189414477789,0.9153723223264221,0.9705387223260904,0.9077720598812595,0.9524431272217568,0.9179475137290445]

如果没有一种有效的方法可以从被分析的音频中计算参考扬声器,您是否知道可以与 Vosk 一起使用以识别音频文件中的扬声器的另一种解决方案? 如果没有,您会建议其他哪些语音到文本选项? (我已经玩过谷歌了)

提前致谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...