使用 NEMO QuartzNet15*5 对波斯语音频进行两次微调时 100% WER

问题描述

对恢复的检查点进行微调对波斯语音频进行了 100% WER 你好 我使用 Persian Mozilla Common Voice 的 235 小时数据集对 Quartz Net 15*5 模型进行了微调。当我用波斯语通用语音测试微调模型时,它在 WER 35% 下运行良好。所以我保存了它的检查点。 现在我恢复那个检查点。我开始使用新域中的另一个波斯数据集对其进行微调。新数据集的音频是录制的电话音频。由于 Colab tarring 过程中持续时间长且缺少 RAM 问题,我将新数据集的采样率从 8KHZ 更改为 16KHZ,并将每个电话音频转换为不同的块。 在我用新数据集微调检查点后,我对其进行了测试,但转录中的测试结果不再好。该模型无法转录任何音频,即使是一个正确的单词。事实上,它转录了一些字母表,而不是一个完整的单词或句子。 我应该如何对上述检查点上的电话波斯语音频数据集进行新的微调?

环境概览

  • 环境位置:Google Colab

  • NeMo 安装方法:!pip install nemo_toolkit[asr]

  • NeMo 版本:1.0.0

  • 学习率:1e-5

环境详情

  • 操作系统版本:“Ubuntu20.04.3 LTS”
  • PyTorch 版本:“1.7.1”
  • 用于第一次微调的数据集:“波斯通用语音”(Mozilla),持续时间:235 小时
  • 用于第一次微调的数据集:“波斯电话音频”,持续时间:22 分钟

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)