未拆分列表,合并因子

问题描述

| 我在R中有以下数据框:
  c1 c2  
1 10  a  
2 20  a  
3 30  b  
4 40  b
然后,我将
split
如下:
z = lapply(split(test$c1,test$c2),function(x) {cut(x,2)})
。 3ѭ然后是:
$a  
[1] (9.99,15] (15,20]  
Levels: (9.99,20]

$b  
[1] (30,35] (35,40]
Levels: (30,40]  
然后,我想通过不拆分列表
unsplit(z,test$c2)
来合并这些因素。这会产生警告:
[1] (9.99,20]   <NA>      <NA>     
Levels: (9.99,20]
Warning message:
In `[<-.factor`(`*tmP*`,i,value = 1:2) :
  invalid factor level,NAs generated
我想对所有因子水平进行并集,然后将其分解,以免发生此错误
z$a = factor(z$a,levels=c(levels(z$a),levels(z$b)))
unsplit(z,test$c2)
[1] (9.99,20]   (30,35]   (35,40]  
Levels: (9.99,20] (30,40]    
在我的真实数据框中,我有一个很大的列表,因此我需要遍历所有列表元素(而不仅仅是两个)。做这个的最好方式是什么?     

解决方法

如果我正确理解了您的问题,我认为您正在使此问题变得比所需的更为复杂。这是使用
plyr
的一种解决方案。我们将按
c2
变量分组:
require(plyr)
ddply(test,\"c2\",transform,newvar = cut(c1,2))
返回:
  c1 c2    newvar
1 10  a (9.99,15]
2 20  a   (15,20]
3 30  b   (30,35]
4 40  b   (35,40]
并具有以下结构:
\'data.frame\':   4 obs. of  3 variables:
 $ c1    : num  10 20 30 40
 $ c2    : Factor w/ 2 levels \"a\",\"b\": 1 1 2 2
 $ newvar: Factor w/ 4 levels \"(9.99,15]\",\"(15,20]\",..: 1 2 3 4
    ,您能不能只ѭ13
z
> unlist(z)
       a1        a2        b1        b2 
(9.99,15]   (15,20]   (30,35]   (35,40] 
Levels: (9.99,15] (15,20] (30,35] (35,40]
或在结果因子上没有名称:
> unlist(z,use.names=FALSE)
[1] (9.99,40]  
Levels: (9.99,40]
您可以将所有内容合并为一个简单的单行程序,不需要附加程序包:
> (test2 <- within(test,newvar <- unlist(lapply(split(c1,c2),cut,2))))
  c1 c2    newvar
1 10  a (9.99,40]