pyarrow 和熊猫集成

我打算：

使用 pyarrow 的数据（新的）。与 Pandas 相比，我们的想法是获得更好的性能和内存利用率（apache 箭头压缩）。

似乎 pyarrow 不支持通过键连接两个表/数据集，所以我不得不回退到熊猫。

我并不真正了解 pyarrow pandas 集成的工作原理。大熊猫真的会使用 apache 箭头数据结构吗？我可以只使用这些类型。

我有一种感觉，pandas 会从 apache 箭头和双倍大小（根据文档）复制所有数据

pyarrow 本身并不向最终用户提供这些功能，而是作为一个可供 DataFrame 库开发人员使用的库作为基础。因此，我们的目的并不是让您作为 DataFrame 用户有一天转而直接使用 pyarrow，而是像 pandas 这样的库使用 Arrow 作为后端。

pandas 1.2 中引入的新 ArrowStringType（尚未真正起作用）或 fletcher 库提供了使用 pyarrow 作为选择的后端的可能性，这已经发生了您的 pandas.DataFrame 列到 pandas 的 ExtensionArray 界面。

免责声明：我是 fletcher 的主要作者。

相关问答