问题描述
对恢复的检查点进行微调对波斯语音频进行了 100% WER 你好 我使用 Persian Mozilla Common Voice 的 235 小时数据集对 Quartz Net 15*5 模型进行了微调。当我用波斯语通用语音测试微调模型时,它在 WER 35% 下运行良好。所以我保存了它的检查点。 现在我恢复那个检查点。我开始使用新域中的另一个波斯数据集对其进行微调。新数据集的音频是录制的电话音频。由于 Colab tarring 过程中持续时间长且缺少 RAM 问题,我将新数据集的采样率从 8KHZ 更改为 16KHZ,并将每个电话音频转换为不同的块。 在我用新数据集微调检查点后,我对其进行了测试,但转录中的测试结果不再好。该模型无法转录任何音频,即使是一个正确的单词。事实上,它转录了一些字母表,而不是一个完整的单词或句子。 我应该如何对上述检查点上的电话波斯语音频数据集进行新的微调?
环境概览
-
环境位置:Google Colab
-
NeMo 安装方法:!pip install nemo_toolkit[asr]
-
NeMo 版本:1.0.0
-
学习率:1e-5
环境详情
- 操作系统版本:“Ubuntu20.04.3 LTS”
- PyTorch 版本:“1.7.1”
- 用于第一次微调的数据集:“波斯通用语音”(Mozilla),持续时间:235 小时
- 用于第一次微调的数据集:“波斯电话音频”,持续时间:22 分钟
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)