问题描述
我的法语文本带有两个撇号。我想以相同的方式分割所有的撇号。例如:
>>> from nltk import word_tokenize
>>> doc = "l'examen est normale. Il n'y a aucun changement"
>>> tokens = word_tokenize(doc,language='french')
>>> tokens
["l'examen",'est','normale','.','Il','n',"'",'y','a','aucun','changement']
两个撇号的行为不同。相反,我想:
['l','examen','changement']
为什么会这样?我看到wordpunct_tokenize
可以完成工作,但是我仍然愿意使用word_tokenize
,因为它可以更好地处理文档的其他部分(此处未显示)。
提前谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)