Input/Output

Data Generator

range (开始[, 结束, 步长, 分区数])

创建一个包含一些数字范围的DataFrame。

Spark Metastore Table

read_table (名称[, 索引列])

读取一个Spark表并返回一个DataFrame。

DataFrame.to_table (名称[, 格式, 模式, …])

将DataFrame写入Spark表。

Delta Lake

read_delta (路径[, 版本, 时间戳, 索引列])

读取文件系统上的 Delta Lake 表并返回一个 DataFrame。

DataFrame.to_delta (路径[, 模式, …])

将DataFrame写入为Delta Lake表。

Parquet

read_parquet (路径[, 列, 索引列, …])

从文件路径加载一个parquet对象,返回一个DataFrame。

DataFrame.to_parquet (路径[, 模式, …])

将DataFrame写入Parquet文件或目录。

ORC

read_orc (路径[, 列, 索引列])

从文件路径加载一个ORC对象,返回一个DataFrame。

DataFrame.to_orc (路径[, 模式, …])

将 DataFrame 写入 ORC 格式。

Generic Spark I/O

read_spark_io ([路径, 格式, 模式, 索引列])

从Spark数据源加载一个DataFrame。

DataFrame.to_spark_io ([路径, 格式, 模式, …])

将DataFrame写入Spark数据源。

Flat File / CSV

read_csv (路径[, 分隔符, 标题, 名称, …])

读取CSV(逗号分隔)文件到DataFrame或Series。

DataFrame.to_csv ([路径, 分隔符, 空值表示, …])

将对象写入逗号分隔值(csv)文件。

Clipboard

read_clipboard ([分隔符])

从剪贴板读取文本并传递给 read_csv。

DataFrame.to_clipboard ([excel, sep])

将对象复制到系统剪贴板。

Excel

read_excel (io[, sheet_name, header, names, …])

将 Excel 文件读取到 pandas-on-Spark DataFrame 或 Series 中。

DataFrame.to_excel (excel_writer[, …])

将对象写入 Excel 工作表。

JSON

read_json (路径[, 行, 索引列])

将JSON字符串转换为DataFrame。

DataFrame.to_json ([路径, 压缩, …])

将对象转换为JSON字符串。

HTML

read_html (io[, match, flavor, header, …])

将HTML表格读取到一个 列表 DataFrame 对象中。

DataFrame.to_html ([buf, columns, col_space, …])

将DataFrame渲染为HTML表格。

SQL

read_sql_table (表名, 连接[, 模式, …])

将 SQL 数据库表读取到 DataFrame 中。

read_sql_query (sql, con[, index_col])

将SQL查询读取到DataFrame中。

read_sql (sql, con[, index_col, columns])

将 SQL 查询或数据库表读取到 DataFrame 中。