问题描述
在此处使用这些数据:
sample Wu.gene bin other
N1 BA00001 Wolbachia dontcare6
W30 BA00002 Entomo dontcare4
N1 BA00002 Rhizobiales dontcare7
N15 BA00002 Rhizobiales dontcare6
W30 BA00004 Bacteriodetes dontcare1
N15 BA00004 Bacteriodetes dontcare2
W30 BA00005 Alistepes dontcare1
N15 BA00005 Alistepes dontcare1
N15 BA00006 Alistepes dontcare1
W30 BA00006 Rumino dontcare6
W30 BA00007 Wolbachia dontcare6
W30 BA00015 Bacteriodetes dontcare1
N1 BA00015 Rhizobiales2 dontcare6
N15 BA00015 Wolbachia dontcare6
N1 BA00016 Entomo dontcare3
W30 BA00016 Entomo dontcare5
W30 BA00017 Alistepes dontcare1
W30 BA00018 Rumino dontcare6
N15 BA00019 Wolbachia dontcare6
N15 BA00020 Rhizobiales dontcare6
N15 BA00021 Rhizobiales2 dontcare6
N15 BA00022 Entomo dontcare6
N1 BA00025 Alistepes dontcare1
W30 BA00025 Rhizobiales dontcare6
W30 BA00025 Rhizobiales dontcare6
N15 BA00025 Wolbachia dontcare6
N1 BA00026 Rumino dontcare6
N15 BA00026 Wolbachia dontcare6
W30 BA00027 Rhizobiales2 dontcare6
N15 BA00031 Wolbachia dontcare6
N15 BA00033 Wolbachia dontcare6
N15 BA00033 Wolbachia dontcare6
N15 BA00033 Wolbachia dontcare6
我一直在尝试使用 reshape 库和 dcast 函数创建一个矩阵
想法是制作一个“bin”~“Wu.gene”矩阵(“https://www.mediafire.com/file/qv9tdnnvwac6xfe/fake_data/file”),但使用“样本”作为矩阵价值。让我解释一下:
如果您查看 fake.data 表,Wu.gene“BA00033”在 bin“Wolbachia”中出现了 3 次,并且所有 3 次都在同一个“N15”样本中。然而,Wu.gene "BA00016" 在 bin "Entomo" 中出现了 2 次,但出现在 2 个不同的样本中:"N1" 和 "W30"。
我可以很容易地构建一个 Wu.gene ~ bin 矩阵,它会显示一个 Wu.gene 在同一个 bin 中的次数(不管它是否在同一个样本中)
bin BA00016 BA00033
Entomo 2 0
Wolbachia 0 3
但我不能指定我想要一个矩阵来显示它在同一个样本中出现的时间,看起来像这样
bin BA00016 BA00033
Entomo 2 0
Wolbachia 0 1
我试过了
fake<-read.table(fake_data,header=T)
dcast(data=fake,formula=bin ~ Wu.gene,value.var = "sample")
但它一直给我 Wu.gene ~ bin 的出现次数,我不知道如何指定我希望它查看值的“样本”列
任何帮助将不胜感激!
解决方法
我认为您可以使用 fun.aggregate
传递一个要应用的函数,在本例中为 uniqueN
,即计算唯一值。
library(data.table)
dcast(setDT(fake),bin ~ Wu.gene,value.var = "sample",fill = 0,fun.aggregate = uniqueN)
或者使用 pivot_wider
:
tidyr::pivot_wider(fake,names_from = Wu.gene,values_from = sample,values_fn = n_distinct,id_cols = bin,values_fill = 0)