我有一个1GB,70M的行文件,无论何时加载它都会耗尽内存.我已经阅读了1000行,并且能够制作我想要它的原型.
我的问题是不知道如何获取接下来的1000行并应用我的逻辑,然后继续运行直到我完成最后一行的文件.我已经阅读了关于chunksizing的内容,虽然我无法弄清楚如何继续chunksizing的迭代.
理想情况下,它会像这样流动:
1)读入前1000行
2)根据标准过滤数据
3)写入csv
4)重复直到不再有行
这是我到目前为止所拥有的:
import pandas as pd data=pd.read_table('datafile.txt',sep='\t',chunksize=1000,iterator=True) data=data[data['visits']>10] with open('data.csv','a') as f: data.to_csv(f,sep = ',',index=False,header=False)