问题描述
假设我要培训3910篇文章,并回答一个长度为7的问题。当我运行以下代码时,它返回的余弦相似度非常长。
tfidf_article = tfidf_vector.fit_transform(txt_cleaned)
tfidf_question = tfidf_vector.transform(question_cleaned)
print(f'Shape of tfidf_article:{tfidf_article.shape},Shape of tifdf_question:{tfidf_question.shape}')
cosine_similarities = linear_kernel(tfidf_article,tfidf_question).flatten()
print(f'length of cosine similarities: {len(cosine_similarities)}')
docs_indices = cosine_similarities.argsort()[::-1][:6]
print(f'doc_indices:{docs_indices}')
##########output#####################################################
Shape of tfidf_article:(3910,414),Shape of tifdf_question:(7,414)
length of cosine similarities: 27370
doc_indices:[22356 13724 7781 16496 19156 1832]
由于我只有3910篇文章(索引0到3909),如何返回从未出现在训练数据中的doc_indices(例如22356、13724、7781、16496、19156)
例如,我无法获取文章[doc_indices],但会收到错误消息。 [Int64Index([22356,13724,7781,16496,19156],dtype ='int64')]都不在[index]“中
如果有人能解决此问题,我将不胜感激。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)