使用 NEMO QuartzNet15*5 对波斯语音频进行两次微调时 100% WER

问题描述

对恢复的检查点进行微调对波斯语音频进行了 100% WER 你好我使用 Persian Mozilla Common Voice 的 235 小时数据集对 Quartz Net 15*5 模型进行了微调。当我用波斯语通用语音测试微调模型时，它在 WER 35% 下运行良好。所以我保存了它的检查点。现在我恢复那个检查点。我开始使用新域中的另一个波斯数据集对其进行微调。新数据集的音频是录制的电话音频。由于 Colab tarring 过程中持续时间长且缺少 RAM 问题，我将新数据集的采样率从 8KHZ 更改为 16KHZ，并将每个电话音频转换为不同的块。在我用新数据集微调检查点后，我对其进行了测试，但转录中的测试结果不再好。该模型无法转录任何音频，即使是一个正确的单词。事实上，它转录了一些字母表，而不是一个完整的单词或句子。我应该如何对上述检查点上的电话波斯语音频数据集进行新的微调？

环境概览

环境位置：Google Colab
NeMo 安装方法：!pip install nemo_toolkit[asr]
NeMo 版本：1.0.0
学习率：1e-5

环境详情

操作系统版本：“Ubuntu20.04.3 LTS”
PyTorch 版本：“1.7.1”
用于第一次微调的数据集：“波斯通用语音”（Mozilla），持续时间：235 小时
用于第一次微调的数据集：“波斯电话音频”，持续时间：22 分钟

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

audio nvidia signal-processing speech-recognition telephony