如何将S3中的文件不是.csv文件读入rstudio和AWS

问题描述

该文件约为45 GB，以“ .gds”（基因组数据结构（GDS）文件）结尾。如何将其读入rstudio和aws，以便我可以在rstudio云上运行统计分析？

我尝试过：

library(aws.s3)


gdsfile<-get_object("s3://bucketname.s3.amazonaws.com/example.gds",bucket = "bucketname")

它没有按照我想要的方式工作。

我想要：

Object of class "SeqVarGDSClass"
File: D:\Program Files\R\R-4.0.2\library\SAIGEgds\extdata\grm1k_10k_snp.gds (694.2K)

+    [  ] *


|--+ description   [  ] *


|--+ sample.id   { Str8 1000 LZMA_ra(12.6%),625B } *


|--+ variant.id   { Int32 10000 LZMA_ra(9.87%),3.9K } *


|--+ position   { Int32 10000 LZMA_ra(9.87%),3.9K } *


|--+ chromosome   { Str8 10000 LZMA_ra(0.71%),149B } *


|--+ allele   { Str8 10000 LZMA_ra(1.03%),421B } *


|--+ genotype   [  ] *


|  |--+ data   { Bit2 2x1000x10000 LZMA_ra(13.8%),675.5K } *


|  |--+ extra.index   { Int32 3x0 LZMA_ra,18B } *


|  \--+ extra   { Int16 0 LZMA_ra,18B }


|--+ phase   [  ]
|  |--+ data   { Bit1 1000x10000 LZMA_ra(0.03%),333B } *


|  |--+ extra.index   { Int32 3x0 LZMA_ra,18B } *


|  \--+ extra   { Bit1 0 LZMA_ra,18B }


|--+ annotation   [  ]


|  |--+ id   { Str8 10000 LZMA_ra(5.47%),3.7K } *


|  |--+ qual   { Float32 10000 LZMA_ra(0.38%),161B } *


|  |--+ filter   { Int32,factor 10000 LZMA_ra(0.38%),161B } *


|  |--+ info   [  ]


|  \--+ format   [  ]


\--+ sample.annotation   [  ]


   |--+ sex   { Str8 1000 LZMA_ra(9.00%),97B } *


   \--+ phenotype   { Int32 1000 LZMA_ra(2.75%),117B } *

那么我应该怎么做才能从s3中检索文件（任何格式）并将其读入rstudio？

我做了一些研究，只发现了.csv文件的一些示例。但是，我的文件显然不是.csv文件。

谢谢。

编辑：对于第一个，

> gdsfile<-get_object("s3://bucketname.s3.amazonaws.com/grm1k_10k_snp.gds",bucket = "bucketname")

> seqOpen(gdsfile)


Error in seqOpen(gdsfile) : is.character(gds.fn) is not TRUE

> gdsfile


   [1] 43 4f 52 45 41 52 52 41 59 78 30 41 00 01 01 00 00 00


  [19] 0b 02 00 00 00 80 00 00 00 00 00 00 01 00 00 00 f5 01


  [37] 00 00 00 00 f5 01 00 00 00 00 04 00 08 c6 43 75 4e f6


  [55] 01 0a 00 00 00 01 c7 43 75 17 e5 7d 9a 01 00 00 00 00


  [73] 2a 00 00 00 00 00 03 00 09 02 f5 00 02 00 00 00 09 44


  [91] 74 31 12 02 00 00 00 15 44 c6 60 10 0b 64 65 73 63 72


 [109] 69 70 74 69 6f 6e 28 00 00 00 00 00 03 00 09 02 f5 00


 [127] 03 00 00 00 09 44 74 31 12 00 00 00 00 15 44 c6 60 10


 [145] 09 73 61 6d 70 6c 65 2e 69 64 29 00 00 00 00 00 03 00

第二个，

library(SAIGEgds)



fn <- system.file("extdata","grm1k_10k_snp.gds",package="SAIGEgds")


gdsfile <- seqOpen(fn)

然后您会看到我想要的。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

amazon-s3 amazon-web-services genome r r