问题描述
我正在尝试清除包含“ birth_date”列的用户输入数据的电子表格。我遇到的问题是用户之间的日期格式范围很广,包括在日期,月份和年份之间没有标记的输入。我很难开发一个足够智能的公式来解释如此广泛的输入。这是一个示例:
1/6/46
7/28/99
11272000
11/28/78
这是我开始的地方:
df['birth_date']=pd.to_datetime(df.birth_date)
这似乎没有超出第一个示例,因为它需要两个月的格式。有人可以帮忙吗?
解决方法
您最好的选择是检查每个输入并给出一致的输出。假设使用“月/日/年”格式,则可以使用此功能
import pandas as pd
import re
def fix_dates(dates):
new = []
for date in dates:
chunks = re.split(r"[\/\.\-]",date)
if len(chunks) == 3:
m,d,y = map(lambda x: x.zfill(2),chunks)
y = y[2:] if len(y) == 4 else y
new.append(f"{m}/{d}/{y}")
else:
m = date[:2]
d = date[2:4]
y = date[4:]
y = y[2:] if len(y) == 4 else y
new.append(f"{m}/{d}/{y}")
return new
inconsistent_dates = '1/6/46 7/28/99 11272000 11/28/78'.split(' ')
pd.to_datetime(pd.Series(fix_dates(inconsistent_dates)))
0 2046-01-06
1 1999-07-28
2 2000-11-27
3 1978-11-28
dtype: datetime64[ns]