问题描述
我在 csv 中有一个包含 2 列的数据集:1 是确定患者精神疾病类型的标签,另一个是来自该用户特定时间段的相应 reddit 帖子。 这些是每组疾病的患者总数:
- 控制:3000
- 抑郁症:2118
- 双极:1062
- ptsd:330
- 精神分裂症:148
首先,我尝试在抑郁症患者和双相情感障碍患者之间进行二元分类。我使用了 tfidf 向量并将其输入 2 种不同类型的分类器:MultinomialNB 和 SVM。 这是代码示例: 使用多项式NB:
text_clf = Pipeline([('vect',CountVectorizer()),('tfidf',TfidfTransformer()),('clf',MultinomialNB()),])
text_clf = text_clf.fit(x_train,y_train)
text_clf_svm = Pipeline([('vect',('clf-svm',SGDClassifier(loss='hinge',penalty='l2',alpha=1e-3,random_state=42)),])
text_clf_svm = text_clf_svm.fit(x_train,y_train)
这些是我的结果:
precision recall f1-score support
bipolar 0.00 0.00 0.00 304
depression 0.68 1.00 0.81 650
accuracy 0.68 954
macro avg 0.34 0.50 0.41 954
weighted avg 0.46 0.68 0.55 954
问题在于模型只是简单地预测所有患者属于较大数据样本的类别,在这种情况下,所有患者都被预测为抑郁症患者。我也尝试过使用 BERT,但我得到了相同的准确性。我使用 LIWC 词典阅读了有关它们的论文,这些类别包括表征语言风格和语言心理方面的变量。 我不明白我所做的是否正确,或者是否有更好的方法使用 NLP 进行分类,如果是这样,请赐教。 感谢任何遇到这么大的帖子并事先分享他们的想法的人!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)