问题描述
我目前正在应用程序中实现 Vosk Speech recognition。特别关注说话人识别,我已经从示例中实现了 test_speaker.py 并且它是功能性的。 作为新手,我如何识别和/或创建参考扬声器签名? 使用提供的一个,使用我的音频示例计算的距离列表并未描绘所涉及的两个扬声器:
[1.0182311997728735,0.8679279016022726,0.8552687907177629,1.0258941854519696,0.8666933753723253,0.9291881495586336,1.0316585805917928,1.0227699471036409,0.8442800102809634,0.9093189414477789,0.9153723223264221,0.9705387223260904,0.9077720598812595,0.9524431272217568,0.9179475137290445]
如果没有一种有效的方法可以从被分析的音频中计算参考扬声器,您是否知道可以与 Vosk 一起使用以识别音频文件中的扬声器的另一种解决方案? 如果没有,您会建议其他哪些语音到文本选项? (我已经玩过谷歌了)
提前致谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)