问题描述
我想比较德语文本(一个或多个句子或整个业务对话文档的整个段落)与一组约1000个预定义的德语文本块之间的相似性。 所以我会
为了生成嵌入,我想到了一种最先进的语言模型,例如BERT,Sentence-BERT或GPT-2。 但是我不知道哪种方法更适合这项任务,尤其是德语文本。 我找到了一篇有关文本相似性(https://dl.acm.org/doi/10.5555/3016100.3016291)的暹罗LSMT的论文,以及使用两个Sentence-BERT而不是LSTM(https://arxiv.org/abs/1908.10084)的一种较新的暹罗方法。暹罗网络通过英语句子对数据集进行了微调。 是否也有带有句子对的德语数据集? 而且由于像BERT这样的大型语言模型应该为开箱即用的相似句子生成相似的嵌入,这种微调是否必要?那么,在公司的文本语料库上而不是句子对上训练BERT或GPT-2就足够了吗? 也许暹罗网络架构无论如何对我们都不起作用,因为出于性能方面的原因,应该更好地预先计算1000个文本块的嵌入,因此只需要与文档的文本部分进行比较即可。
非常感谢您的提前帮助!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)