HDBSCAN集群中的任何对象都不应该具有> 0的概率值吗?并产生不一致的结果

问题描述

我正在使用hdbscan在Python Jupyter笔记本中的数据集中查找簇。

import pandas as pandas
import numpy as np
data = pandas.read_csv('data.csv')

数据看起来像这样:

data

import hdbscan
clusterSize = 6
clusterer = hdbscan.HDBSCAN(min_cluster_size=clusterSize).fit(data)

是的!一切似乎都正常!

然后我想查看一些结果,因此将这些结果添加到我的数据框中:

data.insert(18,"labels",clusterer.labels_)
data.insert(19,"probabilities",clusterer.probabilities_)

但是,等等,我有几行带有标签的概率为0的聚类。这有什么意义?集群中的任何对象都不应该具有> 0的概率值吗?哦,所有的概率都只有0或1。

所以我在Jupyter笔记本中重新运行它,具体地说,我只是重新运行

clusterer = hdbscan.HDBSCAN(min_cluster_size=clusterSize).fit(data)

,然后检查clusterer.labels_clusterer.probabilities_的值,它们是不同的。这件事不应该是一致的吗?为什么这些价值观会改变?有没有我不被告知的隐藏状态?但是现在我的clusterer.probabilities_的值在0到1之间...这是对的吗?

因此,我显然对这个hdbscan工具不是很熟悉,但是有人可以解释为什么当多次运行并且如果标记/聚集对象的概率为0时,它给出不同的答案吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)