Wiki转储仅提取有关人，书，地方的文章

编程问答 2022-06-12

问题描述

我想从Wikipedia转储创建NER（名称实体识别）数据库。我需要按类别提取文章标题，例如：人物，地点，动物，公司等。如何使用python代码实现此目标？我已经尝试过

wikipedia_ner库，但是它不起作用，每次都会得到空结果。
wiki_dump_parser将XML转储到csv，但这是唯一有用的信息就是页面标题
wikidump-infobox-extractor。仅提取已具有信息框的文章的信息框。很少有这样的文章，很难对其进行分类。

解决方法

根据Wikipedia转储或html dumps，自2020年9月起，处理类别的工作相当复杂。

您最好的选择是通过一些[sparql]查询访问Wikidata或dbpedia。

例如尝试查询检索所有具有“类型”作为“人”的“主题”的查询

select distinct ?subject where {
  ?subject <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/Person>
} LIMIT 100

python wikipedia

相关问答

导入项目后报错问题

依赖报错 idea导入项目后依赖报错，解决方案：https://blog....

idea不能识别yaml文件

使用mybatis plus常见错误

错误1：代码生成器依赖和mybatis依赖冲突启动项目时报错如下...

gradle常见问题与错误

错误1：gradle项目控制台输出为乱码 # 解决方案：https://bl...

Mybatis Plus传入参数0不起作用

错误还原：在查询的过程中，传入的workType为0时，该条件不起...

linux中make编译源码包失败

报错如下，gcc版本太低 ^ server.c:5346:31: 错误：‘struct...