像ɔ̃这样的鼻元音被割开

问题描述

我正在创建用于ASR(自动语音识别)目的的词典,并面临一个问题: 我用espeak抓取单词的语音,这给了我类似的东西:

bɔ̃ʒuʁ
saly
wi
nɔ̃
puʁkwa
bɔ̃ʒuʁ
saly
wi
nɔ̃
puʁkwa 

问题:我必须在每个字符之间添加一个空格。 ɔ̃之类的鼻元音编码为两个字符。当我使用sed s/./& /gsed -r "s/([^ ]|ɛ̃ɔ̃œ̃ɑ̃)/\1 /g"添加空白时,似乎鼻腔像这样分解:

b ɔ ̃ ʒ u ʁ 
s a l y 
w i 
n ɔ ̃ 
p u ʁ k w a 
b ɔ ̃ ʒ u ʁ 
s a l y 
w i 
n ɔ ̃ 
p u ʁ k w a

以超文本形式复制时,似乎ɔ ̃被编码在四个角色上。 我必须将 ̃保持在ɔ上方。你有什么建议吗?

sed的输入是一个utf-8文件,其中包含所有单词。

谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...