合并大pandas数据帧,其中一个值在两个之间

我需要在标识符和一个数据帧中的日期在另一个数据帧中的两个日期之间合并两个pandas数据帧.

数据帧A有一个日期(“fdate”)和一个ID(“cusip”):

我需要将此与此数据帧合并B:

在A.cusip == B.ncusip和A.fdate是在B.namedt和B.nameenddt之间.

sql中,这将是微不足道的,但是我可以看到如何在大pandas中做到这一点的唯一方法是首先无条件地合并在标识符上,然后过滤日期条件:

df = pd.merge(A,B,how='inner',left_on='cusip',right_on='ncusip')
df = df[(df['fdate']>=df['namedt']) & (df['fdate']<=df['nameenddt'])]

这真的是最好的办法吗?看来,如果可以在合并过滤器,以避免在合并之后但在过滤器完成之前避免有可能非常大的数据帧,那将会更好一些.

解决方法

目前没有这样做的平庸的方式.

这个答案曾经是解决多态性的问题,这是一个很糟糕的想法.

那么numpy.piecewise功能出现在另一个答案中,但是很少有解释,所以我想我会澄清一下这个功能如何使用.

分数方式(记忆重)

np.piecewise功能可用于生成自定义连接的行为.有很多开销涉及到,而不是很有效率的坚持,但它做的工作.

生产条件加盟

import pandas as pd
from datetime import datetime


presidents = pd.DataFrame({"name": ["Bush","Obama","Trump"],"president_id":[43,44,45]})
terms = pd.DataFrame({'start_date': pd.date_range('2001-01-20',periods=5,freq='48M'),'end_date': pd.date_range('2005-01-21','president_id': [43,43,45]})
war_declarations = pd.DataFrame({"date": [datetime(2001,9,14),datetime(2003,3,3)],"name": ["War in Afghanistan","Iraq War"]})

start_end_date_tuples = zip(terms.start_date.values,terms.end_date.values)
conditions = [(war_declarations.date.values >= start_date) &
              (war_declarations.date.values <= end_date) for start_date,end_date in start_end_date_tuples]

> conditions
[array([ True,True],dtype=bool),array([False,False],dtype=bool)]

这是一个数组的列表,其中每个数组告诉我们,我们拥有的两个战争声明中的每一个的时间跨度是否匹配.条件可能会与较大的数据集爆炸,因为它将是左df的长度和右df相乘.

分段“魔法”

现在分段将从术语中取得president_id,并将其放在war_declarations数据帧中,为每个相应的战争.

war_declarations['president_id'] = np.piecewise(np.zeros(len(war_declarations)),conditions,terms.president_id.values)
    date        name                president_id
0   2001-09-14  War in Afghanistan          43.0
1   2003-03-03  Iraq War                    43.0

现在要完成这个例子,我们只需要定期合并总统的名字.

war_declarations.merge(presidents,on="president_id",suffixes=["_war","_president"])

    date        name_war            president_id    name_president
0   2001-09-14  War in Afghanistan          43.0    Bush
1   2003-03-03  Iraq War                    43.0    Bush

多态(不行)

我想分享我的研究工作,所以即使这不能解决问题,我希望能够在这里至少有一个有用的答复.由于很难发现错误,有人可能尝试这样做,并认为他们有一个工作的解决方案,而实际上他们没有.

我唯一可以想到的方法是创建两个新类,一个PointInTime和一个Timespan

两者应该有__eq__方法,如果将PointInTime与包含它的Timespan进行比较,则返回true.

之后,您可以使用这些对象填充您的DataFrame,并加入他们所在的列.

这样的事情

class PointInTime(object):

    def __init__(self,year,month,day):
        self.dt = datetime(year,day)

    def __eq__(self,other):
        return other.start_date < self.dt < other.end_date

    def __neq__(self,other):
        return not self.__eq__(other)

    def __repr__(self):
        return "{}-{}-{}".format(self.dt.year,self.dt.month,self.dt.day)

class Timespan(object):
    def __init__(self,start_date,end_date):
        self.start_date = start_date
        self.end_date = end_date

    def __eq__(self,other):
        return self.start_date < other.dt < self.end_date

    def __neq__(self,other):
        return not self.__eq__(other)

    def __repr__(self):
        return "{}-{}-{} -> {}-{}-{}".format(self.start_date.year,self.start_date.month,self.start_date.day,self.end_date.year,self.end_date.month,self.end_date.day)

重要提示:我不会对datetime进行子类化,因为pandas会将datetime对象的列的dtype视为datetime dtype,而且由于时间不是,所以pandas地拒绝合并.

如果我们实例化这些类的两个对象,现在可以对它们进行比较:

pit = PointInTime(2015,1,1)
ts = Timespan(datetime(2014,1),datetime(2015,2,2))
pit == ts
True

我们也可以用这些对象填充两个DataFrames:

df = pd.DataFrame({"pit":[PointInTime(2015,PointInTime(2015,2),3)]})

df2 = pd.DataFrame({"ts":[Timespan(datetime(2015,5)),Timespan(datetime(2015,4,1))]})

然后合并的作品:

pd.merge(left=df,left_on='pit',right=df2,right_on='ts')

        pit                    ts
0  2015-2-2  2015-2-1 -> 2015-2-5
1  2015-2-2  2015-2-1 -> 2015-4-1

但只有一种.

PointInTime(2015,3)也应包含在Timespan(datetime(2015,1))的此连接中)

但它不是.

我认为大pandas将PointInTime(2015,3)与PointInTime(2015,2)进行比较,并假定由于它们不相等,3)不能等于Timespan(datetime(2015,1)),因为这个时间段等于PointInTime(2015,2)

像这样排序:

Rose == Flower
Lilly != Rose

因此:

Lilly != Flower

编辑:

我试图让所有PointInTime彼此相等,这改变了加入的行为,包括2015-3-3,但2015-2-2只包括在2015-2-1时代 – > 2015-2-5,所以这加强了我上述的假设.

如果有任何其他想法,请评论,我可以尝试.

相关文章

SELECT a.*,b.dp_name,c.pa_name,fm_name=(CASE WHEN a.fm_n...
if not exists(select name from syscolumns where name=&am...
select a.*,pano=a.pa_no,b.pa_name,f.dp_name,e.fw_state_n...
要在 SQL Server 2019 中设置定时自动重启,可以使用 Window...
您收到的错误消息表明数据库 &#39;EastRiver&#39; 的...
首先我需要查询出需要使用SQL Server Profiler跟踪的数据库标...