查找具有最大值的观测值，这些观测值占总数的特定百分比

问题描述

我观察到许多客户（或“用户”）及其在几天中的访问时间。现在，我要选择占客户总访问时间80％的客户。更准确地说，我想依次选择总访问时间最长的客户，直到达到跨客户累计访问时间的80％。

示例数据：

da = data.frame(userid = c(1,1,2,3,4,5,5),day = c(1,2),total_visit_time = c(28,312,22,93,30,67,211,81))
da
   userid day total_visit_time
1       1   1               28
2       1   2                4
3       2   1              312
4       2   2               22
5       3   1                1
6       3   2               93
7       4   1               30
8       4   2               67
9       5   1              211
10      5   2               81

我已经弄清楚了，如果每个客户只有一个观察值以及几天中的总访问时间，那么它是如何工作的，但是我想保留示例数据的数据结构。

示例数据：假设我们观察了10个用户及其访问总时间（以秒为单位）：

da = data.frame(userid = c(1,6,7,8,9,10),81))
da
   userid total_visit_time
1       1               28
2       2                4
3       3              312
4       4               22
5       5                1
6       6               93
7       7               30
8       8               67
9       9              211
10     10               81

我们计算出整个客户的总访问时间为849秒。我们根据客户的访问时间以降序对其进行排序：

da = da %>% mutate(overall_time = sum(total_visit_time)) %>%
   arrange(desc(total_visit_time))
da
   userid total_visit_time overall_time
1       3              312          849
2       9              211          849
3       6               93          849
4      10               81          849
5       8               67          849
6       7               30          849
7       1               28          849
8       4               22          849
9       2                4          849
10      5                1          849

我们计算客户花费的累计时间（基于降序）：

da = da %>%
   mutate(cumulative_time = cumsum(total_visit_time))
da
   userid total_visit_time overall_time cumulative_time
1       3              312          849             312
2       9              211          849             523
3       6               93          849             616
4      10               81          849             697
5       8               67          849             764
6       7               30          849             794
7       1               28          849             822
8       4               22          849             844
9       2                4          849             848
10      5                1          849             849

我们计算出访问时间在所有客户的总时间中所占的百分比：

da = da %>% mutate(percentage_of_time = cumulative_time/overall_time)
da         
   userid total_visit_time overall_time cumulative_time percentage_of_time
1       3              312          849             312              0.367
2       9              211          849             523              0.616
3       6               93          849             616              0.726
4      10               81          849             697              0.821
5       8               67          849             764              0.900
6       7               30          849             794              0.935
7       1               28          849             822              0.968
8       4               22          849             844              0.994
9       2                4          849             848              0.999
10      5                1          849             849              1.000

我们用

da = filter(da,percentage_of_time < .80)
da
  userid total_visit_time overall_time cumulative_time percentage_of_time
1      3              312          849             312              0.367
2      9              211          849             523              0.616
3      6               93          849             616              0.726

如果我想保留客户的所有观察结果，对我的分组数据如何起作用？

解决方法

这是data.table的解决方案：

da = data.table(userid = c(1,1,2,3,4,5,5),day = c(1,2),total_visit_time = c(28,312,22,93,30,67,211,81))
da[,perc_visit := sum(total_visit_time)/sum(da$total_visit_time),by = userid]
da_unique <- unique(da[,.(userid,perc_visit)])[order(-perc_visit),][,cum_perc_visit := cumsum(perc_visit)]
da <- merge(da,da_unique[,cum_perc_visit)],by = "userid")[order(cum_perc_visit)]
da[cum_perc_visit<0.8,]

dplyr dplyr filter filter mutate mutate panel-data r r