添加代码以打印 censusgeocode 包中的数据行

问题描述

我正在使用我使用 pip 安装的包 censusgeocode 对我使用美国人口普查局 API 的一堆地址进行地理编码；具体来说，我正在使用批处理地址功能。

因为 API 对每个批次的地址限制为 10,000 个，而我的数据集有几十万行，所以我首先编写了一个函数，将数据集拆分为 N 个文件，我可以循环并输入批处理地理编码 API。自然运行需要很长时间，我不介意这个，因为我只需要运行一次。但是，我现在已经运行了两次（每次大约 16 小时）并且它在同一点中断，错误是我在我的 N 个数据集中的一个数据集中缺少一行中的数据（特别是它说 {{1 }}原文如此）。我已经检查了文件，我非常确信没有丢失行。

我想要做的是向 censusgeocode 包添加一些代码，该包打印包尝试进行地理编码的行，包括 ID 号（根据定义，任何行都不能为空，即使所有其他列都是） .不过，我完全不知道如何做到这一点。

您可以在我的代码下方看到，其中包括将数据集拆分为 N 个 CSV 文件，然后调用 censusgeocode 批处理函数。

Error: line contains NUL

有谁知道是否可以将一些代码添加到 import pandas as pd import numpy as np import os import math import censusgeocode # For tracking progress import time from IPython.display import display,clear_output df = pd.read_csv('dta/For_geocoding_mv.csv') def split_dataframe(df,chunk_size = 10000): chunks = list() num_chunks = math.ceil(len(df) / chunk_size) for i in range(num_chunks): chunks.append(df[i*chunk_size:(i+1)*chunk_size]) return chunks !rmdir 'dta/batchfiles/' !mkdir 'dta/batchfiles/' splits = split_dataframe(df,chunk_size=5000) for i in range(len(splits)): splits[i].to_csv('dta/batchfiles/split_' + str(i) + '.csv',index=False,header=False) dfs = [] start_time = time.perf_counter() cg = censusgeocode.CensusGeocode() for i in range(len(splits)): k = cg.addressbatch('dta/batchfiles/split_' + str(i) + '.csv') dfs.append(pd.DataFrame(k)) clear_output(wait=True) print("Current page: " + str(i) + ",Run time:",round((time.perf_counter() - start_time)/60,2),"minutes") df = pd.concat(dfs) 包中，以便打印当前尝试进行地理编码的行？如果是这样，我该怎么做？

或者，如果更简单，我很乐意跳过 API 似乎有问题的这一行。因此，如果有一种方法可以在地理编码周围添加 geocode、try:，这样它就会移动到下一行，那也太棒了。

提前致谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

api api census geocode pandas pandas python

添加代码以打印 censusgeocode 包中的数据行

问题描述

解决方法

相关问答