像“shabankhan”这样没有意义的随机词会影响情绪分析模型吗?

问题描述

我正在根据从 Google Play 商店中提取评论构建预测模型。 我有一个超过 2'400'000 行的数据集。 结构如下:

root
 |-- content: string (nullable = true)
 |-- score: string (nullable = true)

内容”中的许多行都有带有无意义词语的评论,例如“我喜欢这个应用程序 rfdssr43”的评分为“4”,而其他的则拼写错误,例如“Good app with good resolution”的评分为“3”。 数据框中有很多这些。
你认为这些类型的错误和这些废话对我的模型来说是一个问题吗? (尤其是当我去做 TF-IDF 的时候)

我尝试进行语言检测,试图消除这些单词。我使用过各种模型,例如 Spacycld3,但它们都“捕获”了像“我喜欢其他语言(例如葡萄牙语)中的“我喜欢这个”,然后为我删除它们,并删除诸如“shabankhan”或“catfewlkji”之类的无意义词(这是我想删除的词)。因此,因为它还会删除我有用的短语,例如“我喜欢这个”,我想不理会它并保持数据原样。
我曾想过的另一个选择是使用库 enchant 分析单个单词并在单词是英语时返回 TRUE,否则返回 FALSE,因此使用我的一个函数,我打算从句子中删除“no-sense”这个词:“good app but shabankhan”变成了“good app but”。但我认为这样做并非如此,因为删除单个单词可能会破坏句子的含义。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)