Python：忽略XML文件中的EOF

问题描述

我目前正在从事一个涉及从Wikipedia转储获取文章标题的项目。可下载文件为.bz2格式，其中包含一个XML文件，如果我要解压缩该文件，则大小约为80GB。

我可以使用Python打开和读取前几行，但是我的脚本在43行之后停止读取。之后，第一个文章页面开始。我假设页面之间有一个EOF。

有什么办法可以忽略它并继续阅读吗？我真的不想对它进行解密，也不需要在外部更改文件。

我的代码与此类似：

import bz2

dump = bz2.BZ2File(path,"r")
i = 0
for line in dump:
   print(type(line))
   print(line)
   if i <= 1000:
      i+=1
   else:
      break
     
dump.close()

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

bz2 dump python wikipedia