问题描述
可以将 IPTC 分类法更改为布尔表达式吗?为了简化新闻交流,国际新闻电信委员会 (IPTC) 开发了 NewsML 架构 (NAR),作为该架构的一部分,特定的受控词汇表(例如 IPTC 新闻代码)用于对新闻项目进行分类。 主题代码是一个包含 1300 个术语的词库,用于对主要内容进行分类 每个新闻项目的主题(主题)。” 截至 2021 年,有 1400 多个条款。 IPTC 主题代码(从 2012 年开始)是具有 3 层的树状结构。我的假设是一组词汇定义了新闻的类别。我的问题:是否可以将层次结构转换为这样的布尔表达式: “武装冲突”或“武装争端”或“内乱”或((“武装”或“武器”)和(“右翼”或“左翼”或“极端主义”或“危险”或“对抗” )) “?
解决方法
我们 IPTC 过去在构建基于规则的分类引擎作为 Google 新闻倡议项目时研究过这个问题。它称为 IPTC EXTRA,它允许用户根据布尔逻辑创建规则,根据 IPTC Media Topics 受控词汇表(或任何其他 CV)中的术语对文档进行分类。
规则语言额外查询语言 (EQL) 比简单的布尔和/或/非运算符更具表现力。我们还研究了单词的邻近性和其他一些特征:有关详细信息,请参阅 EXTRA User Manual。
您可以看到 a set of test rules created for the EXTRA project on our GitHub repository。但请注意,这只是根据 IPTC 媒体主题词汇对任何内容进行分类所需的规则的一小部分。目前,我们不知道对所有媒体主题进行分类的完整规则。