在法语中用nltk标记撇号时的不同行为

问题描述

我的法语文本带有两个撇号。我想以相同的方式分割所有的撇号。例如:

>>> from nltk import word_tokenize

>>> doc = "l'examen est normale. Il n'y a aucun changement"
>>> tokens = word_tokenize(doc,language='french')
>>> tokens
["l'examen",'est','normale','.','Il','n',"'",'y','a','aucun','changement']

两个撇号的行为不同。相反,我想:

['l','examen','changement']

为什么会这样?我看到wordpunct_tokenize可以完成工作,但是我仍然愿意使用word_tokenize,因为它可以更好地处理文档的其他部分(此处未显示)。

提前谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)