是否有我可以用来将音频转换为音素的 python 库?

问题描述

我正在处理一个需要将音频转换为音素的项目。我正在寻找的是这样的东西。如果与音素一起我还可以获得它们发生的时间戳,我会很好

enter image description here

解决方法

看看 Allosaurus,它是一种通用(约 2000 语言)电话识别器,可为您提供 IPA 音素。在示例波形文件中,我确实下载了最新模型并在 Python3 中进行了尝试。

python3 -m allosaurus.bin.download_model -m latest
python3 -m allosaurus.run -i sample.wav

取自convert sound to list of phonemes in python