“合并财务数据”和“表格 8-K”以及类似的法律术语是否算作命名实体用于命名实体识别?

问题描述

感谢您的帮助。我正在做一些命名实体标记并遇到一些模棱两可的术语。 我主要遵循 CoNLL2003 注释指南和 MUC-7 命名实体定义(其他注释指南大多与这些指南有相同的想法)

https://www.clips.uantwerpen.be/conll2003/ner/

https://www-nlpir.nist.gov/related_projects/muc/proceedings/ne_task.html

对于例句“I do business in north and South America”,我应该如何标记north and South America”?将整个短语作为一个“位置”实体,还是将“北美洲”和“南美洲”作为两个“位置”实体?

我正在标记一些法律报告(来自美国证券交易委员会的 EDGAR 数据集),所以我遇到了诸如“Form 10”、“Form 8-K”之类的短语,这些都是美国公司的法律表格类型。这些应该被视为“杂项”命名实体吗?

在这些表格中有诸如“合并财务报表”、“管理层讨论与分析”之类的章节名称,是否应将它们标记为“杂项”?

如果是,那么诸如“年度报告”、“股东年度会议”、“普通股”、“限制性股票单位”之类的词就会变得非常含糊。可以说它们是一种“法律文件”的名称,或者“金融工具”类型的名称。但这些短语在某种程度上是通用的,并没有指出一个特定的实体。它们应该是“杂项”还是“命名实体之外”(非命名实体)?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)