像ɔ̃这样的鼻元音被割开

我正在创建用于ASR（自动语音识别）目的的词典，并面临一个问题：我用espeak抓取单词的语音，这给了我类似的东西：

bɔ̃ʒuʁ
saly
wi
nɔ̃
puʁkwa
bɔ̃ʒuʁ
saly
wi
nɔ̃
puʁkwa

问题：我必须在每个字符之间添加一个空格。 ɔ̃之类的鼻元音编码为两个字符。当我使用sed s/./& /g或sed -r "s/([^ ]|ɛ̃ɔ̃œ̃ɑ̃)/\1 /g"添加空白时，似乎鼻腔像这样分解：

b ɔ ̃ ʒ u ʁ 
s a l y 
w i 
n ɔ ̃ 
p u ʁ k w a 
b ɔ ̃ ʒ u ʁ 
s a l y 
w i 
n ɔ ̃ 
p u ʁ k w a

以超文本形式复制时，似乎ɔ ̃被编码在四个角色上。我必须将 ̃保持在ɔ上方。你有什么建议吗？

sed的输入是一个utf-8文件，其中包含所有单词。

谢谢！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）