性能不佳 Arrow Parquet 多个文件

问题描述

在 Rstudio 会议 here 上观看了令人兴奋的网络研讨会后,我感到非常兴奋,可以将整个 sql Server 表转储到 parquet 文件中。结果是 2886 个文件(37 个月内 78 个实体),总共有大约 7 亿行。

enter image description here

执行基本选择在 15 秒内返回所有行! (这个结果简直太棒了!!)在网络研讨会上,来自 Ursa Labs 的 Neal Richardson 展示了 Ny-Taxi 数据集,在 4 秒内有 20 亿行。

我觉得是时候做一些更大胆的事情了,比如基本均值、标准差、模式超过一年的数据,但这每月需要一分钟,所以我坐了 12.4 分钟等待 R 的回复

>

enter image description here

这是什么问题?我写得不好的 R 查询?或者只是太多的文件或粒度(Kontobelop 中的十进制值)??

有什么想法吗??

PS:我不想将 Jira-case 放在 apache-arrow board 中,因为我看到 google 搜索无法从那里检索答案。

解决方法

我的猜测(没有实际查看数据或分析查询)有两件事:

  1. 您说得对,十进制类型需要一些工作才能转换为 R 类型,因为 R 没有十进制类型,因此这比仅读取 int32 或 float64 类型要慢。立>
  2. 您仍在向 R 会话读取约 3.5 亿行数据,这需要一些时间。在箭头包小插图的示例查询中,过滤掉了更多的数据(而且过滤速度非常快)。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...