nlp – 使用样本数据或webservice使用NLTK python进行句子的情感分析？

我正在着手进行情绪分析的NLP项目。

我已经成功安装了NLTK for python(似乎是一个很棒的软件)。但是，我无法理解如何用来完成任务。

这是我的任务：

>我从一个长的数据开始(让他们从网络服务中说出关于英国选举的几百个推文)
>我想把它分解成句子(或信息不超过100个字符)(我想我可以在python中这样做)
>然后搜索该句子内的特定实例的所有句子。 “戴维·卡梅隆”
>然后我想检查每个句子中的正/负情绪，并相应计数

注意：我不太在乎准确性，因为我的数据集很大，也不用担心讽刺。

这是我遇到的麻烦：

>我可以找到的所有数据集NLTK附带的语料库电影审查数据不是webservice格式。看来这已经做了一些处理。据我看到，加工(由斯坦福德)是用WEKA完成的。 NLTK不可能自己做所有这些？这里所有的数据集已经被组织成正/负已经例如。极性数据集http://www.cs.cornell.edu/People/pabo/movie-review-data/怎么做？ (通过情绪组织句子，肯定是WEKA还是别的？)
>我不知道我明白为什么WEKA和NLTK会一起使用。似乎他们做的事情也是一样的。如果用WEKA处理数据，首先要找出情绪，为什么需要NLTK？是否可以解释为什么这可能是必要的？

我发现几个脚本有点接近这个任务，但都使用相同的预处理数据。不能自己处理这些数据以发现句子中的情绪，而不是使用链接中给出的数据样本？

任何帮助是非常感激，将救我多头发！

干杯柯

解决方法

电影评论数据已经被人类标记为正面或负面(作出评论的人给了电影一个用于确定极性的评分)。这些黄金标准标签允许您训练分类器，然后您可以使用其他电影评论。您可以使用该数据在NLTK中训练分类器，但将结果应用于选举推文可能不如随机猜测正或负的准确性。或者，您可以通过自己标注几千个推文，将其作为正面或负面的，并将其用作您的培训套件。

有关使用朴素贝叶斯进行情感分析与NLTK：http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/的说明

然后在该代码中，而不是使用电影语料库，使用您自己的数据来计算字数(在word_feats方法中)。

nlp – 使用样本数据或webservice使用NLTK python进行句子的情感分析？

解决方法

相关文章