Input/Output

DataStreamReader.csv (路径[, 模式, 分隔符, …])

加载一个CSV文件流并返回结果为 DataFrame

DataStreamReader.format (源)

指定输入数据源格式。

DataStreamReader.json (路径[, 模式, …])

加载一个JSON文件流,并将其结果作为 DataFrame 返回。

DataStreamReader.load ([路径, 格式, 模式])

从数据源加载数据流并将其返回为 DataFrame

DataStreamReader.option (键, 值)

为底层数据源添加一个输入选项。

DataStreamReader.options (**选项)

为底层数据源添加输入选项。

DataStreamReader.orc (路径[, mergeSchema, …])

加载一个ORC文件流,返回结果为 DataFrame

DataStreamReader.parquet (路径[, …])

加载一个 Parquet 文件流,返回结果为 DataFrame

DataStreamReader.schema (schema)

指定输入模式。

DataStreamReader.table (tableName)

定义一个表上的流式DataFrame。

DataStreamReader.text (路径[, wholetext, …])

加载一个文本文件流并返回一个 DataFrame ,其模式以名为“value”的字符串列开始,如果有分区列,则在其后跟随分区列。

DataStreamWriter.foreach (f)

设置流查询的输出以使用提供的写入器 f 进行处理。

DataStreamWriter.foreachBatch (函数)

设置流查询的输出以使用提供的函数进行处理。

DataStreamWriter.format (source)

指定底层输出数据源。

DataStreamWriter.option (键, 值)

为底层数据源添加一个输出选项。

DataStreamWriter.options (**选项)

为底层数据源添加输出选项。

DataStreamWriter.outputMode (输出模式)

指定如何将流式 DataFrame/Dataset 的数据写入流式接收器。

DataStreamWriter.partitionBy (*cols)

在文件系统上按给定列对输出进行分区。

DataStreamWriter.queryName (queryName)

指定可以通过 start() 启动的 StreamingQuery 的名称。

DataStreamWriter.start ([路径, 格式, …])

DataFrame 的内容流式传输到数据源。

DataStreamWriter.toTable (表名[, …])

开始执行流式查询,当新数据到达时,将持续将结果输出到给定的表中。

DataStreamWriter.trigger (*[, …])

设置流查询的触发器。