NLP 的天赋:为什么 MIT 电影语料库比原始数据集有更多的标签?

问题描述

我有一个与用于自然语言处理的 flair 框架相关的问题: 我正在尝试为 NER 任务加载简单的 MIT 电影语料库。但是,我的输出包含以 ES 开头的标签,例如 E-SONGS-ACTOR 等。虽然原始数据集包含 BIO 格式的数据。

from flair.datasets import MIT_MOVIE_NER_SIMPLE
# load simple movie NER corpus
corpus_MIT = MIT_MOVIE_NER_SIMPLE()
print(corpus_MIT)
print(corpus_MIT.make_tag_dictionary('ner'))

输出

Corpus: 8797 train + 978 dev + 2443 test sentences
Dictionary with 52 tags: <unk>,O,B-ACTOR,E-ACTOR,S-YEAR,S-TITLE,B-GENRE,I-GENRE,E-GENRE,B-DIRECTOR,E-DIRECTOR,S-GENRE,B-SONG,I-SONG,E-SONG,S-ACTOR,B-PLOT,I-PLOT,E-PLOT,S-PLOT,B-CHaraCTER,E-CHaraCTER,S-rating,B-ratingS_AVERAGE,E-ratingS_AVERAGE,B-TITLE,E-TITLE,S-SONG,I-TITLE,B-rating

有人可以向我解释这一点吗? 提前致谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)