hdbscan 与 bertopic 一起使用的问题:OSError: [Errno 22] Invalid argument

问题描述

我写作是因为我有一个问题(我知道是愚蠢而明显的介绍)。

我正在尝试使用 RStudio 中的 Python 解释器和 reticulate 扩展来使用 BERTopic 包:

Python 3.6.13 (C:/Users/Francesco/AppData/Local/r-miniconda/envs/r-reticulate/python.exe)
Reticulate 1.18.9008 REPL -- R 中的 Python 解释器。

我设法安装了它 pip3 install bertopic

一开始,尝试安装 bertopic 会导致错误hdbscan 的依赖有关,特别是与使用的轮子有关;我通过 conda 安装 hdbscan 克服了它(使用 pip 问题似乎无法解决),并且在这样做之后似乎两者都已安装并且很好(pip 会确认如此)。

之后,我尝试按照 Medium/Towards Data Science 中的包教程(这里是我正在关注的 Colab 版本)来熟悉该包并检查一切是否按预期运行。

我基本上是将 Colab 的代码复制并粘贴到我正在使用的 RMarkdown 文件中的 Python 块上,但是当我尝试将教程的相同代码应用于使用的相同数据集时:

from sklearn.datasets import fetch_20newsgroups

docs = fetch_20newsgroups(subset='all',remove=('headers','footers','quotes'))['data']

from bertopic import BERTopic

topic_model = BERTopic(language="english",calculate_probabilities=True,verbose=True)

topics,probs = topic_model.fit_transform(docs)

我收到以下错误

批次:100%|##########| 589/589 [28:21 2021-04-29 16:24:25,973 - BERTopic - 将文档转换为嵌入
2021-04-29 16:24:35,752 - BERTopic - 使用 UMAP 降低维度
OSError: [Errno 22] 无效参数

理论上,按照 colab 上的输出,我应该得到:

.................. - BERTopic - 使用 HDBSCAN 的集群 UMAP 嵌入

因为我对 hdbscan 有问题,我相信它与它有某种关系,我阅读了几个 GitHub 和 Stackoverflow 页面,指出了这样一个包的问题,​​但我不知道如何解决这个问题,但是我真的需要,因为我的论文需要使用包。

有人可以帮我吗?

PS:这是我第一次在 stackoverflow 上提问:我希望我写下了所有必要的东西,但如果缺少某些信息,请告诉我。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)