像“shabankhan”这样没有意义的随机词会影响情绪分析模型吗？

问题描述

我正在根据从 Google Play 商店中提取的评论构建预测模型。我有一个超过 2'400'000 行的数据集。结构如下：

root
 |-- content: string (nullable = true)
 |-- score: string (nullable = true)

“内容”中的许多行都有带有无意义词语的评论，例如“我喜欢这个应用程序 rfdssr43”的评分为“4”，而其他的则拼写错误，例如“Good app with good resolution”的评分为“3”。数据框中有很多这些。
你认为这些类型的错误和这些废话对我的模型来说是一个问题吗？（尤其是当我去做 TF-IDF 的时候）

我尝试进行语言检测，试图消除这些单词。我使用过各种模型，例如 Spacy 和 cld3，但它们都“捕获”了像“我喜欢其他语言（例如葡萄牙语）中的“我喜欢这个”，然后为我删除它们，并删除诸如“shabankhan”或“catfewlkji”之类的无意义词（这是我想删除的词）。因此，因为它还会删除对我有用的短语，例如“我喜欢这个”，我想不理会它并保持数据原样。
我曾想过的另一个选择是使用库 enchant 分析单个单词并在单词是英语时返回 TRUE，否则返回 FALSE，因此使用我的一个函数，我打算从句子中删除“no-sense”这个词：“good app but shabankhan”变成了“good app but”。但我认为这样做并非如此，因为删除单个单词可能会破坏句子的含义。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

bigdata data-analysis dataframe python sentiment-analysis