为什么python dataFrames只定位在同一台机器上？

问题描述

我正在阅读确定的最终指南：

Python / R DataFrame存在于一台计算机上，而不是多台计算机上……这将给定DataFrame的操作限制为该特定计算机上存在的资源。

因此，我想知道为什么Python的dataFrame无法跨多台机器？如果这意味着不分发python？
更新
Python / R是否具有等效的分布式DataFrame（例如Spark scala / java ?? DataFrame

）

解决方法

Pandas不允许您自己将datframe分发到多机计算机。当您拥有数据时，对我们来说是件好事

适合内存（RAM）
适合磁盘

因此，当您拥有可以在单台计算机上处理的数据时，它会很好地工作。但是，随着数据和处理需求的增长，您希望转到存储和处理数据帧的分布式/并行处理的库。数据帧的概念在这些库中很常见，但是实现方式不同以提供分布式处理能力。两个很好的例子是

Dask，它通常在由cores乘以多个thread / multiprocessing/multitasking的一台计算机上使用，但也可以在分布式集群上很好地运行。
Apache spark主要用于多个节点上的集群模式，因此是分布式数据处理框架。（但也可以在单台独立计算机上使用）

更新：

您要求

DataFrame CONCEPT是未分发的，但是R和 Python还有其他概念可以进行分布式计算

Dataframe不需要是非分布式或分布式的，这是一个概念，DataFrame是一种二维数据结构，具有可具有不同类型的列，并且查询，汇总和操作非常容易且高效，它被许多面向数据的编程范例和库所采用。因此，利用和操纵这些数据帧也可以以分布式方式完成以处理大数据。 Spark只是分布式数据处理框架的一个示例，可以与包括R和Python在内的多种语言一起使用

例如，pandas DataFrame不分发。

语句说DataFrame不是唯一的，有几个DataFrame概念。即使有很多概念，spark DataFrame都是分布式的，但其他概念（即python和R则不是）。

这并不意味着pyspark DataFrame。

apache-spark apache-spark-dataset dataframe pyspark python