性能不佳 Arrow Parquet 多个文件

在 Rstudio 会议 here 上观看了令人兴奋的网络研讨会后，我感到非常兴奋，可以将整个 sql Server 表转储到 parquet 文件中。结果是 2886 个文件（37 个月内 78 个实体），总共有大约 7 亿行。

执行基本选择在 15 秒内返回所有行！（这个结果简直太棒了！！）在网络研讨会上，来自 Ursa Labs 的 Neal Richardson 展示了 Ny-Taxi 数据集，在 4 秒内有 20 亿行。

我觉得是时候做一些更大胆的事情了，比如基本均值、标准差、模式超过一年的数据，但这每月需要一分钟，所以我坐了 12.4 分钟等待 R 的回复。

这是什么问题？我写得不好的 R 查询？或者只是太多的文件或粒度（Kontobelop 中的十进制值）？？

有什么想法吗？？

PS：我不想将 Jira-case 放在 apache-arrow board 中，因为我看到 google 搜索无法从那里检索答案。

我的猜测（没有实际查看数据或分析查询）有两件事：

相关问答