问题描述
我目前正在从事一个涉及从Wikipedia转储获取文章标题的项目。 可下载文件为.bz2格式,其中包含一个XML文件,如果我要解压缩该文件,则大小约为80GB。
我可以使用Python打开和读取前几行,但是我的脚本在43行之后停止读取。之后,第一个文章页面开始。我假设页面之间有一个EOF。
有什么办法可以忽略它并继续阅读吗?我真的不想对它进行解密,也不需要在外部更改文件。
我的代码与此类似:
import bz2
dump = bz2.BZ2File(path,"r")
i = 0
for line in dump:
print(type(line))
print(line)
if i <= 1000:
i+=1
else:
break
dump.close()
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)