不确定如何开始使用NLP分析用户反馈

问题描述

我想分析大约13.8万条用户反馈记录,以了解用户最常说的广泛模式。每个人的评分都在1-5颗星之间,因此我不需要进行任何形式的情绪分析。我最感兴趣的是将数据集分为> = 4星以查看我们的工作状况,并以

我遇到的一个关键问题是我希望看到很多n-gram。我知道其中一些,例如“ HOV车道”,“拼车车道”,“ de回时间”,“挡车道”等。但是我也想以编程方式检测常见的二元和三元语法。我一直在玩Spacy,但似乎没有能力在语料库级别上进行分析,仅在文档级别上进行分析。

理想情况下,我的管道看起来像这样(我认为):

  1. 将已知n元语法列表导入令牌生成

  2. 将每个字符串处理为带标记的文档,删除标点符号, 停用词等,同时遵守已知的n-gram 标记化(即“ HOV车道”应为单个名词标记

  3. 确定语料库中最常见的二元组和三元组 错过了

  4. 使用找到的n-gram重新标记

  5. 按评分划分(> = 4和

  6. 为语料库中的每个数据查找最常见的主题

我似乎找不到单个工具,甚至找不到工具集合,都无法在这里做我想做的事情。我是否以某种错误的方式处理此问题?任何有关入门的指示将不胜感激!

解决方法

VADER工具非常适合情感分析和基于NLP的应用程序。

在此案例研究中,我认为建议的工作流程很好。重要的是,密切配合特征提取。 在大多数情况下,三元组在这些用例上都是合理的。

使用Spacy是一个更好的选择,因为SpaCy的基于规则的匹配引擎和组件不仅可以帮助您找到要搜索的术语和句子,还可以访问文本及其文本中的标记与正则表达式的关系。

,

宾果游戏为您解决问题的最新技术!

它叫做-零空学习。 最新的NLP模型,可在没有注释数据的情况下进行文本分类。

有关代码和详细信息,请阅读博客-https://joeddav.github.io/blog/2020/05/29/ZSL.html

让我知道它是否对您有用或对您有任何其他帮助。