问题描述
我观察到许多客户(或“用户”)及其在几天中的访问时间。现在,我要选择占客户总访问时间80%的客户。更准确地说,我想依次选择总访问时间最长的客户,直到达到跨客户累计访问时间的80%。
示例数据:
da = data.frame(userid = c(1,1,2,3,4,5,5),day = c(1,2),total_visit_time = c(28,312,22,93,30,67,211,81))
da
userid day total_visit_time
1 1 1 28
2 1 2 4
3 2 1 312
4 2 2 22
5 3 1 1
6 3 2 93
7 4 1 30
8 4 2 67
9 5 1 211
10 5 2 81
我已经弄清楚了,如果每个客户只有一个观察值以及几天中的总访问时间,那么它是如何工作的,但是我想保留示例数据的数据结构。
示例数据:假设我们观察了10个用户及其访问总时间(以秒为单位):
da = data.frame(userid = c(1,6,7,8,9,10),81))
da
userid total_visit_time
1 1 28
2 2 4
3 3 312
4 4 22
5 5 1
6 6 93
7 7 30
8 8 67
9 9 211
10 10 81
我们计算出整个客户的总访问时间为849秒。我们根据客户的访问时间以降序对其进行排序:
da = da %>% mutate(overall_time = sum(total_visit_time)) %>%
arrange(desc(total_visit_time))
da
userid total_visit_time overall_time
1 3 312 849
2 9 211 849
3 6 93 849
4 10 81 849
5 8 67 849
6 7 30 849
7 1 28 849
8 4 22 849
9 2 4 849
10 5 1 849
我们计算客户花费的累计时间(基于降序):
da = da %>%
mutate(cumulative_time = cumsum(total_visit_time))
da
userid total_visit_time overall_time cumulative_time
1 3 312 849 312
2 9 211 849 523
3 6 93 849 616
4 10 81 849 697
5 8 67 849 764
6 7 30 849 794
7 1 28 849 822
8 4 22 849 844
9 2 4 849 848
10 5 1 849 849
我们计算出访问时间在所有客户的总时间中所占的百分比:
da = da %>% mutate(percentage_of_time = cumulative_time/overall_time)
da
userid total_visit_time overall_time cumulative_time percentage_of_time
1 3 312 849 312 0.367
2 9 211 849 523 0.616
3 6 93 849 616 0.726
4 10 81 849 697 0.821
5 8 67 849 764 0.900
6 7 30 849 794 0.935
7 1 28 849 822 0.968
8 4 22 849 844 0.994
9 2 4 849 848 0.999
10 5 1 849 849 1.000
我们用
da = filter(da,percentage_of_time < .80)
da
userid total_visit_time overall_time cumulative_time percentage_of_time
1 3 312 849 312 0.367
2 9 211 849 523 0.616
3 6 93 849 616 0.726
如果我想保留客户的所有观察结果,对我的分组数据如何起作用?
解决方法
这是data.table
的解决方案:
da = data.table(userid = c(1,1,2,3,4,5,5),day = c(1,2),total_visit_time = c(28,312,22,93,30,67,211,81))
da[,perc_visit := sum(total_visit_time)/sum(da$total_visit_time),by = userid]
da_unique <- unique(da[,.(userid,perc_visit)])[order(-perc_visit),][,cum_perc_visit := cumsum(perc_visit)]
da <- merge(da,da_unique[,cum_perc_visit)],by = "userid")[order(cum_perc_visit)]
da[cum_perc_visit<0.8,]