问题描述
在 Rstudio 会议 here 上观看了令人兴奋的网络研讨会后,我感到非常兴奋,可以将整个 sql Server 表转储到 parquet 文件中。结果是 2886 个文件(37 个月内 78 个实体),总共有大约 7 亿行。
执行基本选择在 15 秒内返回所有行! (这个结果简直太棒了!!)在网络研讨会上,来自 Ursa Labs 的 Neal Richardson 展示了 Ny-Taxi 数据集,在 4 秒内有 20 亿行。
我觉得是时候做一些更大胆的事情了,比如基本均值、标准差、模式超过一年的数据,但这每月需要一分钟,所以我坐了 12.4 分钟等待 R 的回复。
>这是什么问题?我写得不好的 R 查询?或者只是太多的文件或粒度(Kontobelop 中的十进制值)??
有什么想法吗??
PS:我不想将 Jira-case 放在 apache-arrow board 中,因为我看到 google 搜索无法从那里检索答案。
解决方法
我的猜测(没有实际查看数据或分析查询)有两件事:
- 您说得对,十进制类型需要一些工作才能转换为 R 类型,因为 R 没有十进制类型,因此这比仅读取 int32 或 float64 类型要慢。立>
- 您仍在向 R 会话读取约 3.5 亿行数据,这需要一些时间。在箭头包小插图的示例查询中,过滤掉了更多的数据(而且过滤速度非常快)。