nltk.tokenize.TweetTokenizer 下划线处理不一致

问题描述

我正在处理一些社交媒体数据,并注意到 nltk.tokenize.TweetTokenizer 处理下划线不一致。我一生都无法弄清楚它使用的规则,但希望有人能启发我。

示例输入 1:

text = "covid_19 is a scary virus"
tt = TweetTokenizer()
tt.tokenize(text)

输出:['covid','_19','is','a','scary','virus']

示例输入 2:

text = "co_19 is a scary virus"
tt = TweetTokenizer()
tt.tokenize(text)

输出:['co_19','virus']

我尝试了各种其他的字母、数字和下划线组合,但结果不一致。我唯一确定的是,所有带下划线的字母都不会分开,而主题标签似乎可以保证下划线不会分开。见下文。

示例输入 3:

text = "#covid_19 is a scary virus my_friend"
tt = TweetTokenizer()
tt.tokenize(text)

输出:['#covid_19','virus','my_friend']

帮助?解释?我真的不想让它分裂covid_19,不管有没有hashtag。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)