问题描述
我正在创建用于ASR(自动语音识别)目的的词典,并面临一个问题: 我用espeak抓取单词的语音,这给了我类似的东西:
bɔ̃ʒuʁ
saly
wi
nɔ̃
puʁkwa
bɔ̃ʒuʁ
saly
wi
nɔ̃
puʁkwa
问题:我必须在每个字符之间添加一个空格。 ɔ̃之类的鼻元音编码为两个字符。当我使用sed s/./& /g
或sed -r "s/([^ ]|ɛ̃ɔ̃œ̃ɑ̃)/\1 /g"
添加空白时,似乎鼻腔像这样分解:
b ɔ ̃ ʒ u ʁ
s a l y
w i
n ɔ ̃
p u ʁ k w a
b ɔ ̃ ʒ u ʁ
s a l y
w i
n ɔ ̃
p u ʁ k w a
以超文本形式复制时,似乎ɔ ̃
被编码在四个角色上。
我必须将 ̃
保持在ɔ
上方。你有什么建议吗?
sed的输入是一个utf-8文件,其中包含所有单词。
谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)