如何在文本数据上使用 HDBSCAN?

问题描述

我有一组电子邮件,其中包含提取的关键字数组和元标签。我想在 python 中使用 HDBSACN 进行主题聚类,但我找不到任何示例,它是在 hdbscan 中使用的正确数据格式。

class Mail(object):
    id = 1
    keywords = [("word1",0.45),("word2",0.36)...]
    Metalabel = "Metalabel"



hdbscan.HDBSCAN(min_cluster_size=5,metric='euclidean',cluster_selection_method='eom').fit(???)

我应该如何形成我的邮件类列表以放置 fit() 方法

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)