问题描述
我正在使用hdbscan在Python Jupyter笔记本中的数据集中查找簇。
import pandas as pandas
import numpy as np
data = pandas.read_csv('data.csv')
数据看起来像这样:
import hdbscan
clusterSize = 6
clusterer = hdbscan.HDBSCAN(min_cluster_size=clusterSize).fit(data)
是的!一切似乎都正常!
然后我想查看一些结果,因此将这些结果添加到我的数据框中:
data.insert(18,"labels",clusterer.labels_)
data.insert(19,"probabilities",clusterer.probabilities_)
但是,等等,我有几行带有标签的概率为0的聚类。这有什么意义?集群中的任何对象都不应该具有> 0的概率值吗?哦,所有的概率都只有0或1。
所以我在Jupyter笔记本中重新运行它,具体地说,我只是重新运行
clusterer = hdbscan.HDBSCAN(min_cluster_size=clusterSize).fit(data)
,然后检查clusterer.labels_
和clusterer.probabilities_
的值,它们是不同的。这件事不应该是一致的吗?为什么这些价值观会改变?有没有我不被告知的隐藏状态?但是现在我的clusterer.probabilities_
的值在0到1之间...这是对的吗?
因此,我显然对这个hdbscan工具不是很熟悉,但是有人可以解释为什么当多次运行并且如果标记/聚集对象的概率为0时,它给出不同的答案吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)