生态系统#

使用pandas来满足他们在数据准备、分析和可视化方面的特定需求的用户和包的数量在不断增长。pandas被广泛使用,是处理小型数据的一个好选择。然而,pandas在中等规模到大规模数据集上的扩展性较差,且不具备交互性。Modin提供了一个即插即用的API替代pandas,并能够在节点和可用的CPU之间扩展计算。你只需要替换一行代码就可以切换到Modin。

# import pandas as pd
import modin.pandas as pd

虽然大多数包可以处理 pandas DataFrame 并高效操作它,但由于 Modin DataFrame 的分布式特性,情况并非如此。因此,某些包可能缺乏对正确处理 Modin DataFrame 的支持,更不用说高效处理了。Modin 实现了诸如 __array____dataframe__ 等方法,以便其他库能够处理 Modin DataFrame。如果您认为某个库可以高效处理特定格式的数据,可以将 Modin DataFrame 转换为该库偏好的格式。

to_pandas#

您可以参考pandas生态系统页面,以获取更多关于pandas可以在哪些地方使用以及它支持哪些库的详细信息。

from modin.pandas.io import to_pandas

pandas_df = to_pandas(modin_df)

to_numpy#

您可以参考NumPy文档中的NumPy生态系统部分,以获取更多关于NumPy可以在哪些地方使用以及它支持哪些库的详细信息。

from modin.pandas.io import to_numpy

numpy_arr = to_numpy(modin_df)

to_ray#

您可以参考Ray Data页面,了解更多关于Ray Dataset可以在哪里使用以及它支持哪些库的详细信息。

from modin.pandas.io import to_ray

ray_dataset = to_ray(modin_df)

to_dask#

您可以参考Dask DataFrame页面,了解更多关于Dask DataFrame的用途以及它支持哪些库的详细信息。

from modin.pandas.io import to_dask

dask_df = to_dask(modin_df)