如何以正确的形状离线获取频谱图作为识别的输入?

问题描述

我正在尝试根据此文档使用我自己训练的模型执行离线识别:https://github.com/tensorflow/tfjs-models/tree/master/speech-commands

我遇到了与 https://github.com/tensorflow/tfjs/issues/3820 描述的相同的问题,并且我尝试了从那里提出的所有解决方案,包括 colab(预处理模型)支持 https://colab.research.google.com/github/tensorflow/tfjs-models/blob/master/speech-commands/training/browser-fft/training_custom_audio_model_in_python.ipynb#scrollTo=1AjdTru5NnQQ,它在给定的 wav 文件中运行良好,但得到了一个使用自己的wav文件时的NaN值数组:

requirements.txt

有没有办法解决这个问题?

例如,我应该根据给定的 wav 文件修改我的 wav 文件数据吗?但是如何?在处理我自己的 wav 文件时,我是否错过了预处理过程中的一些重要步骤?或者有没有更简单的方法可以在 javascript 而不是 python 中实现这一点?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)