logo
  • 概述
  • 入门指南
  • 用户指南
  • API参考
  • 开发
  • 迁移指南
  • Python 包管理
  • Spark SQL
    • PySpark中的Apache Arrow
    • Python 用户定义表函数 (UDTFs)
  • Spark上的Pandas API
    • 选项和设置
    • 从/到pandas和PySpark DataFrame
    • 转换并应用一个函数
    • Spark上的Pandas API中的类型支持
    • Spark上的Pandas API中的类型提示
    • 从/到其他DBMS
    • 最佳实践
    • 支持的pandas API
    • 常见问题

Pandas API在Spark上 ¶

  • 选项和设置
    • 获取和设置选项
    • 对不同DataFrame的操作
    • 默认索引类型
    • 可用选项
  • 从/到pandas和PySpark DataFrames
    • pandas
    • PySpark
  • 转换并应用函数
    • transform 和 apply
    • pandas_on_spark.transform_batch 和 pandas_on_spark.apply_batch
  • Spark上的Pandas API中的类型支持
    • PySpark与Spark上pandas API之间的类型转换
    • pandas与Spark上pandas API之间的类型转换
    • 内部类型映射
  • Spark上的Pandas API中的类型提示
    • pandas-on-Spark DataFrame和Pandas DataFrame
    • 使用名称的类型提示
    • 使用索引的类型提示
  • 从/到其他DBMS
    • 读取和写入DataFrames
  • 最佳实践
    • 利用PySpark API
    • 检查执行计划
    • 使用检查点
    • 避免洗牌
    • 避免在单个分区上进行计算
    • 避免使用保留的列名
    • 不要使用重复的列名
    • 在从Spark DataFrame转换为pandas-on-Spark DataFrame时指定索引列
    • 使用 distributed 或 distributed-sequence 默认索引
    • 减少对不同DataFrame/Series的操作
    • 尽可能直接使用Spark上的pandas API
  • 支持的pandas API
    • CategoricalIndex API
    • DataFrame API
    • DatetimeIndex API
    • Index API
    • MultiIndex API
    • Series API
    • TimedeltaIndex API
    • 通用函数API
    • 扩展API
    • 扩展分组API
    • 滚动API
    • 滚动分组API
    • 窗口API
    • DataFrame分组API
    • 分组API
    • Series分组API
  • 常见问题
    • 我应该使用PySpark的数据框API还是Spark上的pandas API?
    • Spark上的pandas API支持结构化流吗?
    • Spark上的pandas API与Dask有什么不同?

上一个

Python 用户定义表函数 (UDTFs)

下一步

选项和设置

© 版权所有 .

使用 Sphinx 3.0.4 创建。