nltk.tokenize.TweetTokenizer 下划线处理不一致

我正在处理一些社交媒体数据，并注意到 nltk.tokenize.TweetTokenizer 处理下划线不一致。我一生都无法弄清楚它使用的规则，但希望有人能启发我。

示例输入 1：

text = "covid_19 is a scary virus"
tt = TweetTokenizer()
tt.tokenize(text)

输出：['covid','_19','is','a','scary','virus']

示例输入 2：

text = "co_19 is a scary virus"
tt = TweetTokenizer()
tt.tokenize(text)

输出：['co_19','virus']

我尝试了各种其他的字母、数字和下划线组合，但结果不一致。我唯一确定的是，所有带下划线的字母都不会分开，而主题标签似乎可以保证下划线不会分开。见下文。

示例输入 3：

text = "#covid_19 is a scary virus my_friend"
tt = TweetTokenizer()
tt.tokenize(text)

输出：['#covid_19','virus','my_friend']

帮助？解释？我真的不想让它分裂covid_19，不管有没有hashtag。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）