问题描述
我想从Wikipedia转储创建NER(名称实体识别)数据库。我需要按类别提取文章标题,例如:人物,地点,动物,公司等。 如何使用python代码实现此目标?我已经尝试过
- wikipedia_ner库,但是它不起作用,每次都会得到空结果。
- wiki_dump_parser将XML转储到csv,但这是唯一有用的 信息就是页面标题
- wikidump-infobox-extractor。仅提取已具有信息框的文章的信息框。很少有这样的文章,很难对其进行分类。
解决方法
根据Wikipedia转储或html dumps,自2020年9月起,处理类别的工作相当复杂。
您最好的选择是通过一些[sparql]查询访问Wikidata或dbpedia。
例如尝试查询检索所有具有“类型”作为“人”的“主题”的查询
select distinct ?subject where {
?subject <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://dbpedia.org/ontology/Person>
} LIMIT 100