问题描述
该文件约为45 GB,以“ .gds”(基因组数据结构(GDS)文件)结尾。 如何将其读入rstudio和aws,以便我可以在rstudio云上运行统计分析?
我尝试过:
library(aws.s3)
gdsfile<-get_object("s3://bucketname.s3.amazonaws.com/example.gds",bucket = "bucketname")
它没有按照我想要的方式工作。
我想要:
Object of class "SeqVarGDSClass"
File: D:\Program Files\R\R-4.0.2\library\SAIGEgds\extdata\grm1k_10k_snp.gds (694.2K)
+ [ ] *
|--+ description [ ] *
|--+ sample.id { Str8 1000 LZMA_ra(12.6%),625B } *
|--+ variant.id { Int32 10000 LZMA_ra(9.87%),3.9K } *
|--+ position { Int32 10000 LZMA_ra(9.87%),3.9K } *
|--+ chromosome { Str8 10000 LZMA_ra(0.71%),149B } *
|--+ allele { Str8 10000 LZMA_ra(1.03%),421B } *
|--+ genotype [ ] *
| |--+ data { Bit2 2x1000x10000 LZMA_ra(13.8%),675.5K } *
| |--+ extra.index { Int32 3x0 LZMA_ra,18B } *
| \--+ extra { Int16 0 LZMA_ra,18B }
|--+ phase [ ]
| |--+ data { Bit1 1000x10000 LZMA_ra(0.03%),333B } *
| |--+ extra.index { Int32 3x0 LZMA_ra,18B } *
| \--+ extra { Bit1 0 LZMA_ra,18B }
|--+ annotation [ ]
| |--+ id { Str8 10000 LZMA_ra(5.47%),3.7K } *
| |--+ qual { Float32 10000 LZMA_ra(0.38%),161B } *
| |--+ filter { Int32,factor 10000 LZMA_ra(0.38%),161B } *
| |--+ info [ ]
| \--+ format [ ]
\--+ sample.annotation [ ]
|--+ sex { Str8 1000 LZMA_ra(9.00%),97B } *
\--+ phenotype { Int32 1000 LZMA_ra(2.75%),117B } *
那么我应该怎么做才能从s3中检索文件(任何格式)并将其读入rstudio?
我做了一些研究,只发现了.csv文件的一些示例。但是,我的文件显然不是.csv文件。
谢谢。
编辑:对于第一个,
> gdsfile<-get_object("s3://bucketname.s3.amazonaws.com/grm1k_10k_snp.gds",bucket = "bucketname")
> seqOpen(gdsfile)
Error in seqOpen(gdsfile) : is.character(gds.fn) is not TRUE
> gdsfile
[1] 43 4f 52 45 41 52 52 41 59 78 30 41 00 01 01 00 00 00
[19] 0b 02 00 00 00 80 00 00 00 00 00 00 01 00 00 00 f5 01
[37] 00 00 00 00 f5 01 00 00 00 00 04 00 08 c6 43 75 4e f6
[55] 01 0a 00 00 00 01 c7 43 75 17 e5 7d 9a 01 00 00 00 00
[73] 2a 00 00 00 00 00 03 00 09 02 f5 00 02 00 00 00 09 44
[91] 74 31 12 02 00 00 00 15 44 c6 60 10 0b 64 65 73 63 72
[109] 69 70 74 69 6f 6e 28 00 00 00 00 00 03 00 09 02 f5 00
[127] 03 00 00 00 09 44 74 31 12 00 00 00 00 15 44 c6 60 10
[145] 09 73 61 6d 70 6c 65 2e 69 64 29 00 00 00 00 00 03 00
第二个,
library(SAIGEgds)
fn <- system.file("extdata","grm1k_10k_snp.gds",package="SAIGEgds")
gdsfile <- seqOpen(fn)
然后您会看到我想要的。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)