从/到 pandas 和 PySpark 数据框 ¶

使用pandas和/或PySpark的用户在使用Spark上的pandas API时，有时会面临API兼容性问题。由于Spark上的pandas API并不旨在实现pandas和PySpark的100%兼容，因此用户需要进行一些变通，才能移植他们的pandas和/或PySpark代码，或者在这种情况下熟悉Spark上的pandas API。本页面旨在描述这一点。

熊猫 ¶

pandas 用户可以通过调用 DataFrame.to_pandas() 访问完整的 pandas API。 pandas-on-Spark DataFrame 和 pandas DataFrame 类似。然而，前者是分布式的，而后者是在单台机器上。当相互转换时，数据在多台机器和单个客户端机器之间传输。

例如，如果您需要调用 pandas_df.values 的 pandas DataFrame，您可以按如下方式进行：

          >>> import pyspark.pandas as ps
>>>
>>> psdf = ps.range(10)
>>> pdf = psdf.to_pandas()
>>> pdf.values
array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

         

pandas DataFrame 可以轻松地转为 pandas-on-Spark DataFrame，如下所示：

          >>> ps.from_pandas(pdf)
   id
 0
 1
 2
 3
 4
 5
 6
 7
 8
 9

         

请注意，将pandas-on-Spark数据框转换为pandas需要将所有数据收集到客户端机器中；因此，如果可能，建议使用Spark上的pandas API或PySpark API。

PySpark ¶

PySpark 用户可以通过调用 DataFrame.to_spark() 访问完整的 PySpark API。pandas-on-Spark DataFrame 和 Spark DataFrame 在本质上是可以互换的。

例如，如果您需要调用 spark_df.filter(...) 的 Spark DataFrame，您可以如下操作：

          >>> import pyspark.pandas as ps
>>>
>>> psdf = ps.range(10)
>>> sdf = psdf.to_spark().filter("id > 5")
>>> sdf.show()
+---+
| id|
+---+
|  6|
|  7|
|  8|
|  9|
+---+

         

Spark DataFrame 可以轻松地转换为 pandas-on-Spark DataFrame，如下所示：

          >>> sdf.pandas_api()
   id
0   6
1   7
2   8
3   9

         

然而，请注意，当从 Spark DataFrame 创建 pandas-on-Spark DataFrame 时，会创建一个新的默认索引。请参见默认索引类型。为了避免这个开销，请在可能的情况下指定用作索引的列。

          >>> # Create a pandas-on-Spark DataFrame with an explicit index.
... psdf = ps.DataFrame({'id': range(10)}, index=range(10))
>>> # Keep the explicit index.
... sdf = psdf.to_spark(index_col='index')
>>> # Call Spark APIs
... sdf = sdf.filter("id > 5")
>>> # Uses the explicit index to avoid to create default index.
... sdf.pandas_api(index_col='index')
       id
index
6       6
7       7
8       8
9       9

         

上一个

选项和设置

下一个

转换并应用一个函数