问题描述
|
将Wiki转储解析为一种格式的最佳
方法是什么,该格式包含
一个自行
生成的
文章ID和
文章内容,而不包含其他
内容?
文章ID为参考ID,
内容为纯文本,无URL,无参考。
解决方法
http://en.wikipedia.org/wiki/Wikipedia:Database_download#Database_schema
似乎很清楚。
http://www.mediawiki.org/wiki/手册:Importing_XML_dumps
似乎很清楚。
http://www.mediawiki.org/wiki/Pywikipediabot
似乎是您想要的代码。