为什么余弦相似度返回一个奇怪的长度?

问题描述

假设我要培训3910篇文章,并回答一个长度为7的问题。当我运行以下代码时,它返回的余弦相似度非常长。


tfidf_article = tfidf_vector.fit_transform(txt_cleaned)
tfidf_question = tfidf_vector.transform(question_cleaned)

print(f'Shape of tfidf_article:{tfidf_article.shape},Shape of tifdf_question:{tfidf_question.shape}')

cosine_similarities = linear_kernel(tfidf_article,tfidf_question).flatten()
print(f'length of cosine similarities: {len(cosine_similarities)}')

  
docs_indices = cosine_similarities.argsort()[::-1][:6]
print(f'doc_indices:{docs_indices}')  

##########output#####################################################
Shape of tfidf_article:(3910,414),Shape of tifdf_question:(7,414)
length of cosine similarities: 27370
doc_indices:[22356 13724  7781 16496 19156  1832]

由于我只有3910篇文章(索引0到3909),如何返回从未出现在训练数据中的doc_indices(例如22356、13724、7781、16496、19156)

例如,我无法获取文章[doc_indices],但会收到错误消息。 [Int64Index([22356,13724,7781,16496,19156],dtype ='int64')]都不在[index]“中

如果有人能解决此问题,我将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...