Wiki转储仅提取有关人,书,地方的文章

问题描述

我想从Wikipedia转储创建NER(名称实体识别)数据库。我需要按类别提取文章标题,例如:人物,地点,动物,公司等。 如何使用python代码实现此目标?我已经尝试过

  • wikipedia_ner库,但是它不起作用,每次都会得到空结果。
  • wiki_dump_parser将XML转储到csv,但这是唯一有用的 信息就是页面标题
  • wikidump-infobox-extractor。仅提取已具有信息框的文章的信息框。很少有这样的文章,很难对其进行分类。

解决方法

根据Wikipedia转储或html dumps,自2020年9月起,处理类别的工作相当复杂。

您最好的选择是通过一些[sparql]查询访问Wikidata或dbpedia。

例如尝试查询检索所有具有“类型”作为“人”的“主题”的查询

select distinct ?subject where {
  ?subject <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/Person>
} LIMIT 100

results

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...