在功能工具中使用多个 ID

问题描述

我有一个数据集，我想对其进行自动特征工程。然而它是基于时间序列的，所以为了使它工作，我必须使用 2 个东西作为 id，对象 id 和日期。

x = pd.DataFrame({'id': [1,2,1],'date': [2012021,2032021,4052021],'x1': [1,3]})
y = pd.DataFrame({'id': [1,'label': [3,1]})
entities = {"features": (x,['id','date']),"labels": (y,'date'])}
feature_matrix,features_defs = ft.dfs(entities=entities,target_entity="y")

当我运行这个时，我得到这个错误：

TypeError: unhashable type: 'list'

我该如何解决这个问题？

解决方法

您是对的，但在这里，您应该为实体集创建唯一索引，然后在 id 中使用正确的索引 (dfs)。我会推荐这种方式：

创建单个数据框而不是两个

data = pd.DataFrame({'id': [1,2,1],'date': [2012021,2032021,4052021],'x1': [1,3],'label': [3,1]})

为列添加唯一索引

data['index'] = data.index

创建实体集

es = ft.EntitySet('My EntitySet')

从数据帧创建实体（不使用两种索引）

es.entity_from_dataframe(
    entity_id='main_data',dataframe=data,index='index',time_index='date'
)

标准化

es.normalize_entity(
    base_entity_id='main_data',new_entity_id='observations',index='id',make_time_index=True
)

创建特征（如果您不想使用默认设置，请不要忘记设置例如聚合）

feature_matrix,features_defs = ft.dfs(entityset=es,target_entity="main_data")

可能有另一种甚至更好的方法来处理这个问题，请检查 this github question 或 this SO answer。

feature-extraction featuretools pandas pandas python

在功能工具中使用多个 ID

问题描述

解决方法

相关问答