ibm-cloud语音转文本:是否可以为自定义词汇指定音素?

问题描述

我们需要使用许多已经通过语音转录的自定义词汇表来构建自定义模型,但是当前用于指定自定义单词的API没有发布用于指定音素字符串的选项,而不是手动生成的临时“ sounds_like”正字法串。由于我们无法找到任何可靠的工具来根据规则从音素字符串生成等效的“类似”字符串,因此这对我们成功使用IBM语音转文本引擎构成了真正的障碍。

是否存在接受的语音/语音字母和可用的API机制,用于指定音素字符串而不是其他拼字法,以指示通过IBM云语音转文本API将自定义单词添加自定义模型时听起来是什么样的? (即IPA的类似物以及在IBM文本语音API中使用它的机制?)

(或者,IBM或其他人是否有一个很好的工具,可以将音素序列转换为拼字法,并保证可以通过其ASR引擎重新转换为相同的音素字符串?)

解决方法

通过技术支持,我发现API当前具有“暗/未记录”功能,通过该功能,可以通过使用以下格式将语音字符串括起来来指定“ sounds_like”规范中的音素字符串:“”

例如,这是一个cURL示例,为单词“ challah”添加发音“hɑː.lə”:

curl -u $CREDS  -X PUT --header "Content-Type:application/json"  --data "{\"sounds_like\":[\"<phoneme hɑː.lə>\"]}" https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/$custID/words/challah

在构建CustomWord对象并通过API提交它们时,也可以使用这种格式。

IPA符号的可接受范围似乎与它们的文本语音API相同,可以在以下位置找到: https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-usSymbols