迁移指南：SparkR（在Spark上使用R）

请注意，此迁移指南描述了特定于 SparkR 的项目。在将 SparkR 迁移到更高版本时，许多 SQL 迁移项可以应用。请参阅迁移指南：SQL、数据集和 DataFrame 。

从 SparkR 3.1 升级到 3.2

以前，当SparkR在普通的R shell或Rscript中运行，并且找不到Spark分发时，SparkR会自动下载并安装Spark分发到用户的缓存目录以完成SparkR的安装。现在，它会询问用户是否希望下载和安装。要恢复以前的行为，设置 SPARKR_ASK_INSTALLATION 环境变量为 FALSE 。

已删除的过时方法 parquetFile 、 saveAsParquetFile 、 jsonFile 、 jsonRDD 。请使用 read.parquet 、 write.parquet 、 read.json 代替。

以前，我们不检查 spark.mlp 中最后一层的大小的有效性。例如，如果训练数据只有两个标签，像 c(1, 3) 这样的 layers 参数以前不会导致错误，而现在会。

在 SparkR 2.3.0 及更早版本中， substr 方法的 start 参数错误地减去了一，且被视为 0 基索引。这可能导致不一致的子字符串结果，并且与 R 中的 substr 的行为不匹配。在 2.3.1 及更高版本中，已经修复了此问题，因此 substr 方法的 start 参数现在是 1 基索引。例如， substr(lit('abcdef'), 2, 4)) 在 SparkR 2.3.0 中的结果是 abc ，而在 SparkR 2.3.1 中的结果是 bcd 。

stringsAsFactors 参数之前在 collect 中被忽略，例如，在 collect(createDataFrame(iris), stringsAsFactors = TRUE) 中。现在已修正。
对于 summary ，增加了计算统计量的选项。其输出已从 describe 的输出中改变。
如果 SparkR 包的版本与 Spark JVM 不匹配，则可能会引发警告。

添加了一个 numPartitions 参数到 createDataFrame 和 as.DataFrame 。在拆分数据时，分区位置的计算已调整为与 Scala 中的一致。
方法 createExternalTable 已被弃用，取而代之的是 createTable 。可以调用任一方法来创建外部或管理表。还添加了额外的目录方法。
默认情况下，derby.log 现在保存到 tempdir() 。当使用 enableHiveSupport 设置为 TRUE 实例化 SparkSession 时， tempdir() 将会被创建。
spark.lda 没有正确设置优化器，现已修正。
几个模型摘要输出已更新，以将 coefficients 表示为 matrix 。这包括 spark.logit 、 spark.kmeans 、 spark.glm 。 spark.gaussianMixture 的模型摘要输出添加了对数似然性 loglik 。

方法 table 已被移除，并替换为 tableToDF 。
类 DataFrame 已重命名为 SparkDataFrame 以避免名称冲突。
Spark 的 SQLContext 和 HiveContext 已被弃用，将被 SparkSession 替代。请使用 sparkR.session() 而不是 sparkR.init() 来实例化 SparkSession。完成此操作后，将使用当前活动的 SparkSession 进行 SparkDataFrame 操作。
参数 sparkExecutorEnv 不再被 sparkR.session 支持。要为执行器设置环境，请使用前缀 “spark.executorEnv.VAR_NAME” 设置 Spark 配置属性，例如：“spark.executorEnv.PATH”。
这些函数不再需要 sqlContext 参数： createDataFrame , as.DataFrame , read.json , jsonFile , read.parquet , parquetFile , read.text , sql , tables , tableNames , cacheTable , uncacheTable , clearCache , dropTempTable , read.df , loadDF , createExternalTable 。
方法 registerTempTable 已被弃用，并被 createOrReplaceTempView 替代。
方法 dropTempTable 已被弃用，并被 dropTempView 替代。
sc SparkContext 参数不再被以下函数需要： setJobGroup , clearJobGroup , cancelJobGroup