为什么python dataFrames只定位在同一台机器上?

问题描述

我正在阅读确定的最终指南

Python / R DataFrame存在于一台计算机上,而不是多台计算机上……这将给定DataFrame的操作限制为该特定计算机上存在的资源。

因此,我想知道为什么Python的dataFrame无法跨多台机器?如果这意味着不分发python?
更新
Python / R是否具有等效的分布式DataFrame(例如Spark scala / java ?? DataFrame

解决方法

Pandas不允许您自己将datframe分发到多机计算机。当您拥有数据时,对我们来说是件好事

  • 适合内存(RAM)
  • 适合磁盘

因此,当您拥有可以在单台计算机上处​​理的数据时,它会很好地工作。但是,随着数据和处理需求的增长,您希望转到存储和处理数据帧的分布式/并行处理的库。数据帧的概念在这些库中很常见,但是实现方式不同以提供分布式处理能力。两个很好的例子是

  1. Dask,它通常在由cores乘以多个thread / multiprocessing/multitasking的一台计算机上使用,但也可以在分布式集群上很好地运行。
  2. Apache spark主要用于多个节点上的集群模式,因此是分布式数据处理框架。 (但也可以在单台独立计算机上使用)

更新

您要求

DataFrame CONCEPT是未分发的,但是R和 Python还有其他概念可以进行分布式计算

Dataframe不需要是非分布式或分布式的,这是一个概念,DataFrame是一种二维数据结构,具有可具有不同类型的列,并且查询,汇总和操作非常容易且高效,它被许多面向数据的编程范例和库所采用。因此,利用和操纵这些数据帧也可以以分布式方式完成以处理大数据。 Spark只是分布式数据处理框架的一个示例,可以与包括R和Python在内的多种语言一起使用

,

例如,pandas DataFrame不分发。

语句说DataFrame不是唯一的,有几个DataFrame概念。即使有很多概念,spark DataFrame都是分布式的,但其他概念(即python和R则不是)。

这并不意味着pyspark DataFrame。