Spark Streaming (Legacy)

Core Classes

StreamingContext (sparkContext[, …])

Spark Streaming功能的主要入口点。

DStream (jdstream, ssc, jrdd_deserializer)

离散化流(DStream),Spark Streaming中的基本抽象,是一连续的RDD(相同类型)的序列,表示连续的数据流(有关RDD的更多信息,请参见Spark核心文档中的 RDD )。

Streaming Management

StreamingContext.addStreamingListener (…)

添加一个 [[org.apache.spark.streaming.scheduler.StreamingListener]] 对象用于接收与流处理相关的系统事件。

StreamingContext.awaitTermination ([超时])

等待执行停止。

StreamingContext.awaitTerminationOrTimeout (超时)

等待执行停止。

StreamingContext.checkpoint (目录)

设置上下文以定期检查 DStream 操作的状态,以便在主节点故障时进行容错。

StreamingContext.getActive ()

返回当前活动的 StreamingContext(即,如果有一个已启动但未停止的上下文)或 None。

StreamingContext.getActiveOrCreate (…)

要么返回活动的 StreamingContext(即。

StreamingContext.getOrCreate (检查点路径,…)

从检查点数据重新创建一个StreamingContext或创建一个新的StreamingContext。

StreamingContext.remember (持续时间)

将此上下文中的每个 DStreams 设置为记住它在上一个给定时间段内生成的 RDDs。

StreamingContext.sparkContext

返回与此StreamingContext关联的SparkContext。

StreamingContext.start ()

开始执行流。

StreamingContext.stop ([停止Spark上下文, …])

停止流的执行,并确保所有接收的数据都已处理。

StreamingContext.transform (dstreams, …)

创建一个新的 DStream,其中每个 RDD 都是通过对 DStreams 的 RDD 应用一个函数生成的。

StreamingContext.union (*dstreams)

从多个相同类型和相同滑动持续时间的DStream创建一个统一的DStream。

Input and Output

StreamingContext.binaryRecordsStream (…)

创建一个输入流,监视与Hadoop兼容的文件系统中的新文件,并将它们作为具有固定长度记录的扁平二进制文件读取。

StreamingContext.queueStream (rdds[, …])

从RDD队列或列表创建输入流。

StreamingContext.socketTextStream (主机名, 端口)

从TCP源主机名:端口创建一个输入。

StreamingContext.textFileStream (目录)

创建一个输入流,监视与Hadoop兼容的文件系统以获取新文件,并将其作为文本文件读取。

DStream.pprint ([num])

打印此 DStream 中生成的每个 RDD 的前 num 个元素。

DStream.saveAsTextFiles (前缀[, 后缀])

将此 DStream 中的每个 RDD 保存为文本文件,使用元素的字符串表示形式。

Transformations and Actions

DStream.cache ()

使用默认存储级别( MEMORY_ONLY )持久化该DStream的RDD。

DStream.checkpoint (时间间隔)

启用此 DStream 的 RDD 定期检查点

DStream.cogroup (其他[, 分区数])

通过在此 DStream 的 RDD 和 其他 DStream 之间应用“cogroup”来返回一个新的 DStream。

DStream.combineByKey (创建合并器, …[, …])

通过对每个 RDD 应用 combineByKey 返回一个新的 DStream。

DStream.context ()

返回与此 DStream 关联的 StreamingContext

DStream.count ()

返回一个新的 DStream,其中每个 RDD 只有一个元素,由对该 DStream 的每个 RDD 进行计数生成。

DStream.countByValue ()

返回一个新的 DStream,其中每个 RDD 包含该 DStream 的每个 RDD 中每个不同值的计数。

DStream.countByValueAndWindow (…[, …])

返回一个新的 DStream,每个 RDD 包含在这个 DStream 的滑动窗口中 RDD 的不同元素的计数。

DStream.countByWindow (窗口持续时间, …)

返回一个新的 DStream,其中每个 RDD 只有一个元素,该元素是通过计算这个 DStream 中一个窗口内的元素数量生成的。

DStream.filter (f)

返回一个新的DStream,仅包含满足谓词的元素。

DStream.flatMap (f[, preservesPartitioning])

通过对这个 DStream 的所有元素应用一个函数,然后将结果进行扁平化,返回一个新的 DStream

DStream.flatMapValues (f)

通过对这个 DStream 中每个键值对的值应用 flatmap 函数,返回一个新的 DStream,而不更改键。

DStream.foreachRDD (函数)

对这个 DStream 中的每个 RDD 应用一个函数。

DStream.fullOuterJoin (其他[, 分区数量])

通过对这个DStream的RDD与 其他 DStream进行“全外连接”来返回一个新的DStream。

DStream.glom ()

返回一个新的 DStream,其中 RDD 通过对该 DStream 的 RDD 应用 glom() 生成。

DStream.groupByKey ([numPartitions])

通过对每个RDD应用groupByKey返回一个新的DStream。

DStream.groupByKeyAndWindow (窗口持续时间, …)

通过在滑动窗口上应用 groupByKey 返回一个新的 DStream。

DStream.join (其他[, 分区数])

通过在此 DStream 的 RDDs 和 other DStream 之间应用 “join” 返回一个新的 DStream。

DStream.leftOuterJoin (其他[, 分区数])

通过对本 DStream 的 RDD 和 other DStream 进行“左外连接”应用,返回一个新的 DStream。

DStream.map (f[, preservesPartitioning])

通过对DStream的每个元素应用函数来返回一个新的DStream。

DStream.mapPartitions (f[, preservesPartitioning])

返回一个新的 DStream,其中每个 RDD 都是通过对该 DStream 的每个 RDD 应用 mapPartitions() 生成的。

DStream.mapPartitionsWithIndex (f[, …])

返回一个新的 DStream,其中每个 RDD 是通过对该 DStream 的每个 RDD 应用 mapPartitionsWithIndex() 生成的。

DStream.mapValues (f)

通过对该DStream中每个键值对的值应用映射函数,返回一个新的DStream,而不改变键。

DStream.partitionBy (numPartitions[, …])

返回一个DStream的副本,其中每个RDD使用指定的分区器进行分区。

DStream.persist (存储级别)

使用给定的存储级别持久化该 DStream 的 RDDs

DStream.reduce (函数)

返回一个新的 DStream,其中每个 RDD 由减少此 DStream 的每个 RDD 生成的单个元素组成。

DStream.reduceByKey (函数[, 分区数])

通过对每个RDD应用reduceByKey返回一个新的DStream。

DStream.reduceByKeyAndWindow (函数, 反函数, …)

通过在滑动窗口上应用增量 reduceByKey 来返回一个新的 DStream。

DStream.reduceByWindow (reduceFunc, …)

返回一个新的 DStream,其中每个 RDD 由在这个 DStream 上的滑动窗口中减少所有元素生成的单个元素组成。

DStream.repartition (分区数)

返回一个新的DStream,具有增加或减少的并行级别。

DStream.rightOuterJoin (其他[, 分区数])

通过在此 DStream 的 RDDs 和 other DStream 之间应用“右外连接”返回一个新的 DStream。

DStream.slice (开始, 结束)

返回所有在‘begin’到‘end’之间的RDD(包括两者)

DStream.transform (函数)

返回一个新的 DStream,其中每个 RDD 是通过对该 DStream 的每个 RDD 应用一个函数生成的。

DStream.transformWith (func, other[, …])

返回一个新的 DStream,其中每个 RDD 通过在此 DStream 的每个 RDD 和“其他”DStream 上应用函数生成。

DStream.union (其他)

通过将另一个 DStream 的数据与此 DStream 统一,返回一个新的 DStream。

DStream.updateStateByKey (更新函数[, …])

返回一个新的“状态”DStream,其中每个键的状态通过对该键的前一个状态和新值应用给定函数进行更新。

DStream.window (窗口持续时间[, 滑动持续时间])

返回一个新的 DStream,其中每个 RDD 包含在此 DStream 的滑动时间窗口中看到的所有元素。

Kinesis

KinesisUtils.createStream (ssc, …[, …])

创建一个输入流,从Kinesis流中提取消息。

InitialPositionInStream.LATEST

InitialPositionInStream.TRIM_HORIZON