无法上传语音数据集,因为“失败”

问题描述

所以我正在尝试将数据集上传到用于自定义模型的 Microsoft 认知服务语音门户。

我已经这样做了大约一年没有问题,但是现在我收到了“失败”的详细信息“无法上传数据。请检查您的数据格式,然后再次尝试上传。” ...非常有用。

除了我已经检查过的以下内容之外,还有人知道是什么导致了问题。

  1. 文件大小为 1.3GB(压缩)/1.8GB(解压缩),低于 https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-services-quotas-and-limits#model-customization

    中指定的“用于数据导入的最大声学数据集文件大小”的 2GB 限制
  2. Trans.txt 文件一个格式正确的 1.3MB UTF-8 文件,带有一个 BOM 文本文件文件名/文本值在 https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/how-to-custom-speech-test-and-train 中指定

  3. Trans.txt 文件中的所有条目都存在于目录中

  4. 目录中的所有文件在 Trans.txt 文件中都有一个关联条目

  5. 所有文件都是指定格式的WAV文件

基本上上述所有内容已经运行了一年,唯一真正改变的是 zip 文件的大小,它仍然低于限制。

万一来自 MS 的人看到这个,数据集 ID 是:7a3f240c-5eb7-4942-8e0f-7efa1b808eee

相关反馈帖子:https://feedback.azure.com/forums/932041-azure-cognitive-services/suggestions/42375118-actionable-error-messaging-in-speech-portal

解决方法

联系 MS 支持后,即使我们在限制范围内,服务器端似乎也出现了与文件大小相关的问题。他们正在努力修复它。