为什么spacy在标记注释中需要开始和结束位置

问题描述

我正在使用自定义数据集训练伪造名称实体识别。 我想到一个问题,为什么spacy需要注释中标签的开始和结束位置?

[
    ('I want apples',{'entities': [(2,5,'COMMAND'),(7,12,'FRUIT')]})
]

谢谢。

解决方法

因为允许命名实体跨越多个令牌,例如:

("Who is Shaka Khan?",{"entities": [(7,17,"PERSON")]}),

“ Shaka Khan”将是一个带有PERSON标签的实体。

相反,如果您要注释

("Who is Shaka Khan?",12,

然后只有“ Shaka”将成为加标签的实体。