问题描述
我正在使用自定义数据集训练伪造名称实体识别。
我想到一个问题,为什么spacy需要注释中标签的开始和结束位置?
[
('I want apples',{'entities': [(2,5,'COMMAND'),(7,12,'FRUIT')]})
]
谢谢。
解决方法
因为允许命名实体跨越多个令牌,例如:
("Who is Shaka Khan?",{"entities": [(7,17,"PERSON")]}),
“ Shaka Khan”将是一个带有PERSON标签的实体。
相反,如果您要注释
("Who is Shaka Khan?",12,
然后只有“ Shaka”将成为加标签的实体。