On this page

Input/Output ¶

Data Generator ¶

range (开始[, 结束, 步长, 分区数])

创建一个包含一些数字范围的DataFrame。

Spark Metastore Table ¶

`read_table` (名称[, 索引列])	读取一个Spark表并返回一个DataFrame。
`DataFrame.to_table` (名称[, 格式, 模式, …])	将DataFrame写入Spark表。

Delta Lake ¶

`read_delta` (路径[, 版本, 时间戳, 索引列])	读取文件系统上的 Delta Lake 表并返回一个 DataFrame。
`DataFrame.to_delta` (路径[, 模式, …])	将DataFrame写入为Delta Lake表。

Parquet ¶

`read_parquet` (路径[, 列, 索引列, …])	从文件路径加载一个parquet对象，返回一个DataFrame。
`DataFrame.to_parquet` (路径[, 模式, …])	将DataFrame写入Parquet文件或目录。

ORC ¶

`read_orc` (路径[, 列, 索引列])	从文件路径加载一个ORC对象，返回一个DataFrame。
`DataFrame.to_orc` (路径[, 模式, …])	将 DataFrame 写入 ORC 格式。

Generic Spark I/O ¶

`read_spark_io` ([路径, 格式, 模式, 索引列])	从Spark数据源加载一个DataFrame。
`DataFrame.to_spark_io` ([路径, 格式, 模式, …])	将DataFrame写入Spark数据源。

Flat File / CSV ¶

`read_csv` (路径[, 分隔符, 标题, 名称, …])	读取CSV（逗号分隔）文件到DataFrame或Series。
`DataFrame.to_csv` ([路径, 分隔符, 空值表示, …])	将对象写入逗号分隔值（csv）文件。

Clipboard ¶

`read_clipboard` ([分隔符])	从剪贴板读取文本并传递给 read_csv。
`DataFrame.to_clipboard` ([excel, sep])	将对象复制到系统剪贴板。

Excel ¶

`read_excel` (io[, sheet_name, header, names, …])	将 Excel 文件读取到 pandas-on-Spark DataFrame 或 Series 中。
`DataFrame.to_excel` (excel_writer[, …])	将对象写入 Excel 工作表。

JSON ¶

`read_json` (路径[, 行, 索引列])	将JSON字符串转换为DataFrame。
`DataFrame.to_json` ([路径, 压缩, …])	将对象转换为JSON字符串。

HTML ¶

`read_html` (io[, match, flavor, header, …])	将HTML表格读取到一个 `列表` 的 `DataFrame` 对象中。
`DataFrame.to_html` ([buf, columns, col_space, …])	将DataFrame渲染为HTML表格。

SQL ¶

`read_sql_table` (表名, 连接[, 模式, …])	将 SQL 数据库表读取到 DataFrame 中。
`read_sql_query` (sql, con[, index_col])	将SQL查询读取到DataFrame中。
`read_sql` (sql, con[, index_col, columns])	将 SQL 查询或数据库表读取到 DataFrame 中。

上一篇

Spark上的Pandas API

下一页

pyspark.pandas.range