问题描述
我如何从huggingface的特征提取管道中为整个句子嵌入?
我了解如何获取每个标记的功能(如下),但如何获取整个句子的整体功能?
feature_extraction = pipeline('feature-extraction',model="distilroberta-base",tokenizer="distilroberta-base")
features = feature_extraction("i am sentence")
解决方法
如果每个标记都有嵌入,则可以通过合并(汇总)它们来创建整体句子嵌入。请注意,如果您具有D维令牌嵌入,则应通过以下方法之一获得D维句子嵌入:
-
计算所有令牌嵌入的均值。
-
计算所有令牌嵌入中每个D维的最大值。