Python:忽略XML文件中的EOF

问题描述

我目前正在从事一个涉及从Wikipedia转储获取文章标题的项目。 可下载文件为.bz2格式,其中包含一个XML文件,如果我要解压缩该文件,则大小约为80GB。

我可以使用Python打开和读取前几行,但是我的脚本在43行之后停止读取。之后,第一个文章页面开始。我假设页面之间有一个EOF。

有什么办法可以忽略它并继续阅读吗?我真的不想对它进行解密,也不需要在外部更改文件

我的代码与此类似:

import bz2

dump = bz2.BZ2File(path,"r")
i = 0
for line in dump:
   print(type(line))
   print(line)
   if i <= 1000:
      i+=1
   else:
      break
     
dump.close()

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)