根据另一列pandas python

问题描述

我正在尝试对这个数据集做一些简单的操作。

enter image description here

我正在尝试:

  1. 计算归因于每个集群的总计数。例如,对于集群 0,我必须求和 7+4+61+7+12= 91
  2. 添加一个新列“总计数”,其中总计数与相应的集群配对出现(即,“集群”列中值为“0”的行,“集群”中的值为 91总计数列
  3. 将“计数”列除以“计数总数”并乘以 100(计算计数的百分比)。结果应添加到新列中。

有人可以帮我写一个代码吗?

解决方法

  1. 要计算归因于每个集群的总数,请使用以下代码:

    total = df.groupby('clusters')['count'].sum().rename('total of counts')

  2. 要添加一个新列“总计数”,其中总计数与相应的集群成对出现,请使用以下代码:

    df = df.join(total,on='clusters',lsuffix='')

  3. 要将列“计数”除以“总计数”并乘以 100,请使用以下代码:

    df['counts by total of counts'] = df['count']/df['total of counts']*100

,

假设您已调用数据框 df,您可以执行以下操作:

第 1 点 在集群列上使用 groupby() 方法并使用 sum() 聚合方法计算总和,例如:

df_grouped = df.groupby('clusters').sum()

完成后,您可能希望将该数据框中的列重命名为更有用的名称,例如:

df_grouped = df_grouped.rename(columns={'count': 'cluster_count'})

第 2 点 要将总和返回到您的数据框中,您可以将 grouped_df 与原始数据框合并,例如:

df_merged = pd.merge(left=df,right=df_grouped,left_on='clusters',right_index=True)

您使用“集群”列的位置是您左侧数据帧的键,并使用 df_grouped 数据帧的索引(集群值将在第 1 点的 groupby() 操作之后出现在索引中)。

第 3 点 最后一步现在是微不足道的。只需使用您的最终数据框并添加一个包含所需计算结果的新列:

df_merged['count_pct_cluster'] = df_merged['count'] / df_merged['cluster_count'] * 100
,

你可以使用 这行代码将为您提供名为 total 的新列和 此列将是从第 0 列到第 11 列的值的平均值 在这里您可以用您需要的任何其他操作替换平均值

 df['total'] = df.iloc[:,:12].mean()

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...