设置IDE ¶
PyCharm ¶
本节描述了如何在PyCharm上设置PySpark。它逐步指导从GitHub下载源代码并成功运行测试代码的过程。
首先,使用 git url 从 GitHub 下载 Spark 源代码。您可以通过简单使用
git
clone
命令如下面所示来下载源代码。 如果您想从任何叉出的仓库而不是 Spark 原始仓库下载代码,请正确更改 url。
git clone https://github.com/apache/spark.git
下载完成后,进入
spark
目录并构建包。
SBT构建一般比Maven快得多。有关构建的更多细节,文档记录在
这里
。
build/sbt package
构建完成后,运行 PyCharm 并选择路径
spark/python
。

让我们在 PyCharm 中去路径
python/pyspark/tests
并尝试运行任意测试,如
test_join.py
。你可能会看到
KeyError:
'SPARK_HOME'
,因为环境变量尚未设置。
请前往
运行 -> 编辑配置
,并按如下设置环境变量。请确保为
SPARK_HOME
指定您自己的路径,而不是
/.../spark
。完成变量设置后,点击
确定
以应用更改。

一旦
SPARK_HOME
设置正确,您将能够像下面一样正确运行测试:
