根据另一列pandas python

我正在尝试对这个数据集做一些简单的操作。

我正在尝试：

有人可以帮我写一个代码吗？

要计算归因于每个集群的总数，请使用以下代码：

total = df.groupby('clusters')['count'].sum().rename('total of counts')
要添加一个新列“总计数”，其中总计数与相应的集群成对出现，请使用以下代码：

df = df.join(total,on='clusters',lsuffix='')
要将列“计数”除以“总计数”并乘以 100，请使用以下代码：

df['counts by total of counts'] = df['count']/df['total of counts']*100

假设您已调用数据框 df，您可以执行以下操作：

第 1 点 在集群列上使用 groupby() 方法并使用 sum() 聚合方法计算总和，例如：

df_grouped = df.groupby('clusters').sum()

完成后，您可能希望将该数据框中的列重命名为更有用的名称，例如：

df_grouped = df_grouped.rename(columns={'count': 'cluster_count'})

第 2 点 要将总和返回到您的数据框中，您可以将 grouped_df 与原始数据框合并，例如：

df_merged = pd.merge(left=df,right=df_grouped,left_on='clusters',right_index=True)

您使用“集群”列的位置是您左侧数据帧的键，并使用 df_grouped 数据帧的索引（集群值将在第 1 点的 groupby() 操作之后出现在索引中）。

第 3 点 最后一步现在是微不足道的。只需使用您的最终数据框并添加一个包含所需计算结果的新列：

df_merged['count_pct_cluster'] = df_merged['count'] / df_merged['cluster_count'] * 100

你可以使用这行代码将为您提供名为 total 的新列和此列将是从第 0 列到第 11 列的值的平均值在这里您可以用您需要的任何其他操作替换平均值

 df['total'] = df.iloc[:,:12].mean()

相关问答