在法语中用nltk标记撇号时的不同行为

问题描述

我的法语文本带有两个撇号。我想以相同的方式分割所有的撇号。例如：

>>> from nltk import word_tokenize

>>> doc = "l'examen est normale. Il n'y a aucun changement"
>>> tokens = word_tokenize(doc,language='french')
>>> tokens
["l'examen",'est','normale','.','Il','n',"'",'y','a','aucun','changement']

两个撇号的行为不同。相反，我想：

['l','examen','changement']

为什么会这样？我看到wordpunct_tokenize可以完成工作，但是我仍然愿意使用word_tokenize，因为它可以更好地处理文档的其他部分（此处未显示）。

提前谢谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

french nlp nltk python-3.x tokenize