Wiki转储仅提取有关人,书,地方的文章

问题描述

我想从Wikipedia转储创建NER(名称实体识别)数据库。我需要按类别提取文章标题,例如:人物,地点,动物,公司等。 如何使用python代码实现此目标?我已经尝试过

解决方法

根据Wikipedia转储或html dumps,自2020年9月起,处理类别的工作相当复杂。

您最好的选择是通过一些[sparql]查询访问Wikidata或dbpedia。

例如尝试查询检索所有具有“类型”作为“人”的“主题”的查询

select distinct ?subject where {
  ?subject <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/Person>
} LIMIT 100

results