为什么余弦相似度返回一个奇怪的长度？

问题描述

假设我要培训3910篇文章，并回答一个长度为7的问题。当我运行以下代码时，它返回的余弦相似度非常长。


tfidf_article = tfidf_vector.fit_transform(txt_cleaned)
tfidf_question = tfidf_vector.transform(question_cleaned)

print(f'Shape of tfidf_article:{tfidf_article.shape},Shape of tifdf_question:{tfidf_question.shape}')

cosine_similarities = linear_kernel(tfidf_article,tfidf_question).flatten()
print(f'length of cosine similarities: {len(cosine_similarities)}')

  
docs_indices = cosine_similarities.argsort()[::-1][:6]
print(f'doc_indices:{docs_indices}')  

##########output#####################################################
Shape of tfidf_article:(3910,414),Shape of tifdf_question:(7,414)
length of cosine similarities: 27370
doc_indices:[22356 13724  7781 16496 19156  1832]

由于我只有3910篇文章（索引0到3909），如何返回从未出现在训练数据中的doc_indices（例如22356、13724、7781、16496、19156）

例如，我无法获取文章[doc_indices]，但会收到错误消息。 [Int64Index（[22356，13724，7781，16496,19156]，dtype ='int64'）]都不在[index]“中

如果有人能解决此问题，我将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

cosine-similarity indices python tf-idf