将大量数据从Cassandra导出到CSV

我正在使用Cassandra 2.0.9存储相当大量的数据,我们说100Gb在一个列系列中。我想以快速方式将此数据导出到CSV。我试过了:

> sstable2json – 它生成很大的json文件,这很难解析 – 因为工具将数据放在一行并使用复杂的模式(例如300Mb数据文件=〜2Gb json),需要很多时间才能转储和Cassandra喜欢根据内部机制改变源文件
> copY – 在相当快的EC2实例上导致大量记录超时
> CAPTURE – 如上所述,导致超时
>分页阅读 – 我用了timeuuid,但它每秒返回大约15k的记录

我使用Amazon Ec2实例,快速存储,15 Gb RAM和4核

是否有更好的出口千兆字节数据从Cassandra到CSV?

解决方法

因为使用copY将是非常具有挑战性的,当您尝试从Cassandra导出数百万行的表时,所以我所做的就是创建简单的工具,从Cassandra表中获取块(分页)的数据块,并将其导出为CSV 。

看看我的example solution使用数据仓库的java库。

相关文章

自1998年我国取消了福利分房的政策后,房地产市场迅速开展蓬...
文章目录获取数据查看数据结构获取数据下载数据可以直接通过...
网上商城系统MySql数据库设计
26个来源的气象数据获取代码
在进入21世纪以来,中国电信业告别了20世纪最后阶段的高速发...