从 Koalas 迁移到 Spark 上的 pandas API

  • 导入的包名应该从 databricks.koalas 更改为 pyspark.pandas

    # 导入 databricks.koalas 为 ks
    import pyspark.pandas as ps
    
  • Koalas DataFrame 中的 DataFrame.koalas 被重命名为 pandas-on-Spark DataFrame 中的 DataFrame.pandas_on_spark 。出于兼容性原因保留了 DataFrame.koalas ,但自 Spark 3.2 起已被弃用。 未来的版本中将移除 DataFrame.koalas

  • 在 PySpark DataFrame 中被 Monkey-patch 的 DataFrame.to_koalas 被重命名为 PySpark DataFrame 中的 DataFrame.pandas_api 。出于兼容性原因保留了 DataFrame.to_koalas 。 未来的版本中将移除 DataFrame.to_koalas

  • 在 PySpark DataFrame 中被 Monkey-patch 的 DataFrame.to_pandas_on_spark 被重命名为 PySpark DataFrame 中的 DataFrame.pandas_api 。出于兼容性原因保留了 DataFrame.to_pandas_on_spark ,但自 Spark 3.3 起已被弃用。 未来的版本中将移除 DataFrame.to_pandas_on_spark

  • databricks.koalas.__version__ 被移除。应该使用 pyspark.__version__