设置IDE

PyCharm

本节描述了如何在PyCharm上设置PySpark。它逐步指导从GitHub下载源代码并成功运行测试代码的过程。

首先,使用 git url 从 GitHub 下载 Spark 源代码。您可以通过简单使用 git clone 命令如下面所示来下载源代码。 如果您想从任何叉出的仓库而不是 Spark 原始仓库下载代码,请正确更改 url。

git clone https://github.com/apache/spark.git

下载完成后,进入 spark 目录并构建包。 SBT构建一般比Maven快得多。有关构建的更多细节,文档记录在 这里

build/sbt package

构建完成后,运行 PyCharm 并选择路径 spark/python

Select the Spark path

让我们在 PyCharm 中去路径 python/pyspark/tests 并尝试运行任意测试,如 test_join.py 。你可能会看到 KeyError: 'SPARK_HOME' ,因为环境变量尚未设置。

请前往 运行 -> 编辑配置 ,并按如下设置环境变量。请确保为 SPARK_HOME 指定您自己的路径,而不是 /.../spark 。完成变量设置后,点击 确定 以应用更改。

Setting up SPARK_HOME

一旦 SPARK_HOME 设置正确,您将能够像下面一样正确运行测试:

Running tests properly