Spark Core ¶
Public Classes ¶
|
Spark功能的主要入口点。 |
|
弹性分布式数据集 (RDD),Spark中的基本抽象。 |
|
使用
|
|
一个可以累积的共享变量,即具有可交换和结合的“加法”操作。 |
辅助对象,定义了如何累积给定类型的值。 |
|
|
Spark 应用程序的配置。 |
|
解析通过
|
|
用于控制RDD存储的标志。 |
关于可以在执行期间读取或改变的任务的上下文信息。 |
|
|
在障碍阶段中包装RDD,这会强制Spark一起启动该阶段的任务。 |
一个
|
|
|
携带障碍任务的所有任务信息。 |
|
建议在启用固定线程模式时,在PySpark中使用的线程,而不是
|
提供实用方法以确定给定输入字符串的Spark版本。 |
Spark Context APIs ¶
|
|
|
创建一个
|
为每个节点添加一个可下载的档案,与此 Spark 作业一起。 |
|
|
在每个节点上添加一个文件,以便与此Spark作业一起下载。 |
为该线程启动的所有作业添加一个标签。 |
|
为将来在此 SparkContext 上执行的所有任务添加 .py 或 .zip 依赖项。 |
|
Spark应用程序的唯一标识符。 |
|
|
从HDFS、本地文件系统(在所有节点上可用)或任何Hadoop支持的文件系统URI读取二进制文件目录作为字节数组。 |
|
从平面二进制文件加载数据,假设每条记录是一组具有指定数值格式的数字(参见 ByteBuffer),并且每条记录的字节数是恒定的。 |
将只读变量广播到集群,返回一个
|
|
取消所有已安排或正在运行的作业。 |
|
|
取消指定组的活动作业。 |
取消具有指定标签的正在进行的工作。 |
|
清除当前线程的工作标签。 |
|
用户未指定时Hadoop RDDs的默认最小分区数 |
|
未由用户提供时使用的默认并行级别(例如。 |
|
将配置文件统计信息转储到目录 path |
|
创建一个
|
|
返回RDD被检查点的目录。 |
|
返回此 SparkContext 的配置副本
|
|
获取当前设置为分配给该线程启动的所有工作岗位的标签。 |
|
获取在此线程中设置的本地属性,如果缺失则返回null。 |
|
|
获取或实例化一个
|
|
从HDFS、本地文件系统(在所有节点上可用)或任何Hadoop支持的文件系统URI读取“旧”Hadoop InputFormat,具有任意键和值类。 |
|
从任意 Hadoop 配置读取一个“旧”Hadoop InputFormat,其键和值类是任意的,并作为 Python 字典传入。 |
返回已添加到资源的归档路径列表。 |
|
返回已添加到资源的文件路径列表。 |
|
|
从 HDFS、本地文件系统(在所有节点上可用)或任何 Hadoop 支持的文件系统 URI 读取一个‘新 API’ Hadoop InputFormat,具有任意键和值类。 |
|
从任意 Hadoop 配置中读取一个“新 API” Hadoop InputFormat,使用任意键和值类,该配置以 Python 字典的形式传递。 |
|
将本地Python集合分发以形成RDD。 |
|
加载之前使用
|
|
创建一个包含从 start 到 end (不包括)的 int 类型的新 RDD,每个元素增加 step 。 |
返回此
|
|
移除之前添加的标签,该标签将分配给由此线程启动的所有作业。 |
|
|
在指定的分区集上执行给定的partitionFunc,将结果作为元素数组返回。 |
|
从 HDFS、一个本地文件系统(在所有节点上可用)或任何 Hadoop 支持的文件系统 URI 读取具有任意键和值的 Writable 类的 Hadoop SequenceFile。 |
|
设置要执行检查点操作的目录。 |
设置在此线程中启动的作业的取消行为。 |
|
设置当前作业的人类可读描述。 |
|
|
将组ID分配给由此线程启动的所有作业,直到组ID被设置为不同的值或被清除。 |
设置一个本地属性,该属性影响从此线程提交的作业,例如 Spark 公平调度池。 |
|
|
控制我们的日志级别。 |
设置一个Java系统属性,例如 spark.executor.memory 。 |
|
将个人资料统计信息打印到标准输出 |
|
获取正在运行SparkContext的用户的SPARK_USER。 |
|
返回
|
|
返回
|
|
关闭
|
|
|
从HDFS、本地文件系统(在所有节点上可用)或任何Hadoop支持的文件系统URI读取文本文件,并将其作为字符串的RDD返回。 |
返回由这个
|
|
|
构建一个RDD列表的并集。 |
此应用程序正在运行的Spark版本。 |
|
|
从 HDFS、本地文件系统(在所有节点上可用)或任何 Hadoop 支持的文件系统 URI 读取文本文件目录。 |
RDD APIs ¶
|
聚合每个分区的元素,然后使用给定的组合函数和一个中性的“零值”聚合所有分区的结果。 |
|
聚合每个键的值,使用给定的合并函数和中性的“零值”。 |
|
将当前阶段标记为障碍阶段,在此阶段,Spark 必须一起启动所有任务。 |
|
使用默认存储级别( MEMORY_ONLY )持久化此 RDD。 |
|
返回这个 RDD 和另一个 RDD 的笛卡尔积,也就是说,所有元素对的 RDD
|
将此RDD标记为检查点。 |
|
|
移除RDD的洗牌以及未持久化的祖先。 |
|
返回一个新的 RDD,该 RDD 被减少为 numPartitions 个分区。 |
|
对于 self 或 other 中的每个键k,返回一个结果RDD,其中包含一个元组,该元组包含 self 和 other 中该键的值列表。 |
|
返回一个包含此RDD中所有元素的列表。 |
将此RDD中的键值对作为字典返回给主节点。 |
|
|
在收集RDD时,使用此方法来指定作业组。 |
|
通用函数,用于使用自定义聚合函数集组合每个键的元素。 |
此RDD创建时所用的
|
|
|
返回此RDD中的元素数量。 |
|
count() 的近似版本,在超时内返回可能不完整的结果,即使所有任务尚未完成。 |
|
返回RDD中不同元素的近似数量。 |
计算每个键的元素数量,并将结果作为字典返回给主节点。 |
|
返回这个RDD中每个唯一值的计数,作为(value, count)对的字典。 |
|
|
返回一个新的 RDD,其中包含该 RDD 中的不同元素。 |
|
返回一个新的 RDD,其中仅包含满足谓词的元素。 |
|
返回这个 RDD 中的第一个元素。 |
|
通过首先对这个 RDD 的所有元素应用一个函数,然后将结果压平,返回一个新的 RDD。 |
通过一个flatMap函数传递键值对RDD中的每个值,且不改变键;这也保留了原始RDD的分区。 |
|
|
聚合每个分区的元素,然后使用给定的可结合函数和中性“零值”对所有分区的结果进行处理。 |
|
使用关联函数“func”和中性值“zeroValue”合并每个键的值,该值可以被任意次添加到结果中,并且必须不改变结果(例如,加法中的0,或乘法中的1)。 |
|
将一个函数应用于此 RDD 的所有元素。 |
对这个RDD的每个分区应用一个函数。 |
|
|
执行右外连接 self 和 other 。 |
获取此RDD被检查点保存的文件名 |
|
返回 RDD 中的分区数量 |
|
获取与此 RDD 指定的
|
|
获取RDD的当前存储级别。 |
|
|
返回一个RDD,该RDD通过将每个分区内的所有元素合并成一个列表来创建。 |
|
返回一个分组项的RDD。 |
|
将RDD中每个键的值分组为一个单一的序列。 |
|
支持多个 RDD 的 cogroup 的别名。 |
|
使用提供的桶计算直方图。 |
|
此RDD的唯一ID(在其SparkContext内)。 |
|
返回这个RDD和另一个RDD的交集。 |
返回该RDD是否已被检查点并材料化,无论是可靠地还是本地地。 |
|
|
仅当RDD完全不包含任何元素时返回true。 |
返回此RDD是否被标记为本地检查点。 |
|
|
返回一个包含在 self 和 other 中具有匹配键的所有元素对的 RDD。 |
|
通过应用 f 创建此 RDD 中元素的元组。 |
|
返回一个包含每个元组键的RDD。 |
|
执行 self 和 other 的左外连接。 |
使用Spark的现有缓存层将此RDD标记为本地检查点。 |
|
|
返回RDD中键 key 的值列表。 |
|
通过对这个RDD的每个元素应用一个函数返回一个新的RDD。 |
|
通过对这个 RDD 的每个分区应用一个函数来返回一个新的 RDD。 |
|
通过对这个 RDD 的每个分区应用一个函数来返回一个新的 RDD,同时跟踪原始分区的索引。 |
|
通过对这个 RDD 的每个分区应用一个函数,返回一个新的 RDD,同时跟踪原始分区的索引。 |
|
通过映射函数传递键值对 RDD 中的每个值,而不更改键;这也保留了原始 RDD 的分区。 |
|
找到这个 RDD 中的最大项。 |
|
计算该RDD元素的均值。 |
|
近似操作以在超时内返回平均值或满足置信度。 |
|
在这个RDD中找到最小项。 |
|
返回此RDD的名称。 |
|
返回使用指定分区器分区的RDD副本。 |
|
将此RDD的存储级别设置为在第一次计算后持久化其值,以便在操作之间保持。 |
|
通过将元素传递给一个分叉的外部进程来返回一个创建的RDD。 |
|
根据提供的权重随机拆分此RDD。 |
|
使用指定的可交换和结合的二元运算符减少此 RDD 的元素。 |
|
使用关联和可交换的归约函数合并每个键的值。 |
使用关联和交换律的归约函数合并每个键的值,但立即将结果作为字典返回给主节点。 |
|
|
返回一个新的RDD,该RDD恰好有numPartitions个分区。 |
根据给定的分区器对RDD进行重分区,并在每个结果分区内按键对记录进行排序。 |
|
|
执行右外连接 self 和 other 。 |
|
返回此RDD的一个取样子集。 |
|
返回通过键(通过分层抽样)抽样的此RDD的子集。 |
计算该RDD元素的样本标准偏差(通过用N-1而不是N进行除法来修正估计标准偏差的偏差)。 |
|
计算此RDD元素的样本方差(通过除以N-1而不是N来纠正估计方差的偏差)。 |
|
|
将键值对的Python RDD(形式为
|
|
输出一个键值对的 Python RDD(形式为
|
|
输出一个键值对的Python RDD(形式为
|
|
输出一个键值对的 Python RDD(形式为
|
|
将此RDD保存为序列化对象的SequenceFile。 |
|
输出一个Python RDD的键值对(形式为
|
|
将此RDD保存为文本文件,使用元素的字符串表示。 |
|
为这个RDD指定一个名称。 |
|
按给定的 keyfunc 对这个 RDD 进行排序 |
|
对这个 RDD 进行排序,这个 RDD 假定由 (key, value) 对组成。 |
|
返回一个
|
|
计算这个RDD元素的标准差。 |
|
返回每个不在 other 中的 self 的值。 |
|
返回在 self 中每个 (键, 值) 对,这些对在 other 中没有匹配键的对。 |
|
将此 RDD 中的元素相加。 |
|
在超时时间内返回总和或满足置信度的近似操作。 |
|
取RDD的前num个元素。 |
|
从RDD中获取按升序或按可选键函数指定的顺序排列的N个元素。 |
|
返回此RDD的固定大小的采样子集。 |
此RDD及其递归依赖项的描述,用于调试。 |
|
|
返回一个迭代器,其中包含此RDD中的所有元素。 |
|
从 RDD 中获取前 N 个元素。 |
|
以多层树形模式聚合此 RDD 的元素。 |
|
以多层树模式减少此RDD的元素。 |
|
返回此RDD和另一个RDD的并集。 |
|
将RDD标记为非持久性,并从内存和磁盘中移除其所有块。 |
|
返回一个包含每个元组值的RDD。 |
|
计算该RDD元素的方差。 |
|
指定一个
|
|
将这个RDD与另一个RDD进行压缩,返回键值对,键为第一个RDD中的每个元素,值为第二个RDD中的每个元素,等等。 |
将此 RDD 与其元素索引压缩在一起。 |
|
将此 RDD 与生成的唯一 Long id 联系起来。 |
Broadcast and Accumulator ¶
|
销毁与此广播变量相关的所有数据和元数据。 |
|
将值的经过pickle处理的表示写入打开的文件或套接字。 |
|
从打开的文件或套接字读取值的序列化表示。 |
从打开的文件中读取对象的腌制表示,并返回其中指定的重构对象层次结构。 |
|
|
删除执行器上该广播的缓存副本。 |
返回广播的值 |
|
|
向此累加器的值添加一个项 |
获取累加器的值;仅在驱动程序中可用 |
|
|
将累加器的数据类型的两个值相加,返回一个新值;为了提高效率,也可以就地更新 value1 并返回它。 |
为该类型提供一个“零值”,其维度与提供的 value 兼容(例如,一个零向量) |
Management ¶
返回线程目标包装器,建议在启用固定线程模式时在PySpark中使用。 |
|
这个配置是否包含给定的键? |
|
|
获取某个键的配置值,否则返回默认值。 |
将所有值作为键值对的列表获取。 |
|
|
设置一个配置属性。 |
|
设置多个参数,作为键值对的列表传递。 |
设置应用名称。 |
|
|
设置一个环境变量以传递给执行器。 |
|
设置一个配置属性,如果尚未设置。 |
设置主 URL 以进行连接。 |
|
设置Spark安装在工作节点上的路径。 |
|
返回可打印的配置版本,作为键=值对的列表,每行一个。 |
|
|
获取通过
|
获取包含通过
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这个任务已经尝试了多少次。 |
|
分配给任务的CPU。 |
|
返回当前活动的
|
|
获取驱动程序中上游的本地属性设置,如果缺失则返回None。 |
|
由此任务计算的RDD分区的ID。 |
|
分配给任务的资源。 |
|
此任务所属阶段的ID。 |
|
一个在此任务尝试中独特的ID(在同一个
|
|
|
通过对封装的 RDD 的每个分区应用一个函数返回新的 RDD,其中任务在一个障碍阶段一起启动。 |
|
通过对包装的 RDD 的每个分区应用一个函数,同时跟踪原始分区的索引,返回一个新的 RDD。 |
|
此函数会阻塞,直到同一阶段的所有任务都到达此例程。 |
这个任务已经尝试了多少次。 |
|
设置一个全局屏障,并等待此阶段中的所有任务达到该屏障。 |
|
分配给任务的CPU。 |
|
返回当前活动的
|
|
获取驱动程序中上游的本地属性设置,如果缺失则返回None。 |
|
返回
|
|
由此任务计算的RDD分区的ID。 |
|
分配给任务的资源。 |
|
此任务所属阶段的ID。 |
|
一个在此任务尝试中独特的ID(在同一个
|
|
|
给定一个 Spark 版本字符串,返回(主版本号,次版本号)。 |