如何按功能重要性说明文本聚类结果？ DBSCAN 更新

问题描述

有类似的questions和库，例如ELI5和LIME。但是我找不到解决我问题的方法。我有一组文档，我正在尝试使用scikit-learn的DBSCAN将它们聚类。首先，我使用TfidfVectorizer对文档进行矢量化处理。然后，我简单地对数据进行聚类并接收预测的标签。我的问题是：如何解释集群形成的原因？我的意思是，假设有2个预测的群集（群集1和群集2）。 哪些特征（因为我们的输入数据是矢量化的文档，所以我们的特征是矢量化的“单词”）对于创建集群1（或集群2）很重要？

在下面，您可以找到我目前正在研究的最小示例。这不是我要实现的目标的最低限度的可行示例（因为我不知道如何实现）。

import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer

categories = ['alt.atheism','soc.religion.christian','comp.graphics','sci.med']
twenty_train = fetch_20newsgroups(
    subset='train',categories=categories,shuffle=True,random_state=42,remove=('headers','footers'),)

visualize_train_data = pd.DataFrame(data=np.c_[twenty_train
                                                      ['data'],twenty_train
                                                      ['target']])
print(visualize_train_data.head())

vec = TfidfVectorizer(min_df=3,stop_words='english',ngram_range=(1,2))
vectorized_train_data = vec.fit_transform(twenty_train.data)

clustering = DBSCAN(eps=0.6,min_samples=2).fit(vectorized_train_data)
print(f"Unique labels are {np.unique(clustering.labels_)}")

旁注：：我提供的问题专门针对k-Means算法，而答案（对我而言）不是很直观。 ELI5和LIME是很棒的库，但是它们提供的示例与回归或分类相关（而不是聚类），并且它们的回归器和分类器直接支持“预测”。 DBSCAN不会...

解决方法

首先，让我们了解您使用的嵌入空间是什么。 TfidfVectorizer将创建一个非常稀疏的矩阵，其维度对应于句子，而维度对应于您的词汇表（文本中的所有单词，除了“停用词”之外，而且非常罕见-请参见min_df和{ {1}}）。当您要求DBSCAN对句子进行聚类时，它将采用单词tf-idfs的那些表示形式，并使用欧几里得距离度量来查找彼此接近的句子。因此，希望您的群集应从具有常见单词的句子中创建。为了找出在特定聚类中最重要的单词（或“特征”），只需选取属于同一聚类（矩阵行）的句子，然后找到顶部的 K （例如〜10）具有最常见的非零值的列的索引。然后使用stop_words

查找这些单词在使用什么

更新

vec.get_feature_names()

请注意，您到达此处的集群很小。集群55仅具有4个句子。其他大多数人只有2个句子。

DBSCAN与sklearn中的大多数聚类算法一样，没有为您提供predict方法或功能的重要性。因此，您可以（1）通过训练逻辑回归或使用聚类标签的任何其他可解释分类器来重构决策过程，或者（2）切换到另一种文本聚类方法，例如NMF或LDA。第一种方法正是Lime等人的方法。

cluster-analysis dbscan eli5 machine-learning python