使用非英语文本的预训练模型进行BERT句子嵌入

问题描述

我正在尝试使用BERT句子嵌入从瑞典语文本字符串的语料库中为瑞典语文本片段找到相似的句子。 句子翻译器(BERT)的句子SBERT似乎是理想的选择。它们具有各种预先训练的模型,并提供了出色的示例: (https://github.com/UKPLab/sentence-transformers

from sentence_transformers import SentenceTransformer,util
import torch

embedder = SentenceTransformer('distilbert-base-nli-stsb-mean-tokens')

sentences = ['This framework generates embeddings for each input sentence','Sentences are passed as a list of string.','The quick brown fox jumps over the lazy dog.']
sentence_embeddings = model.encode(sentences)

但是,他们为非英语句子转换器的选择似乎是有限的。我想知道是否有可能,也许更准确地应用Hugging Face库中的BERT模型,该模型专门针对瑞典文本或任何其他非英语语言进行了训练,以提取句子嵌入物?专门针对某种语言进行训练的BERT模型不会为该语言产生更准确的句子嵌入吗?最后,所有模型都以各自的语言在相同的任务MLM和NSP上进行了预训练,以理解该语言,对吗?

有什么想法或经验吗?

最终目标是在句子嵌入中使用余弦相似度对相似的句子/段落进行排序

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)