生态系统#
使用pandas来满足他们在数据准备、分析和可视化方面的特定需求的用户和包的数量在不断增长。pandas被广泛使用,是处理小型数据的一个好选择。然而,pandas在中等规模到大规模数据集上的扩展性较差,且不具备交互性。Modin提供了一个即插即用的API替代pandas,并能够在节点和可用的CPU之间扩展计算。你只需要替换一行代码就可以切换到Modin。
# import pandas as pd
import modin.pandas as pd
虽然大多数包可以处理 pandas DataFrame 并高效操作它,但由于 Modin DataFrame 的分布式特性,情况并非如此。因此,某些包可能缺乏对正确处理 Modin DataFrame 的支持,更不用说高效处理了。Modin 实现了诸如 __array__、__dataframe__ 等方法,以便其他库能够处理 Modin DataFrame。如果您认为某个库可以高效处理特定格式的数据,可以将 Modin DataFrame 转换为该库偏好的格式。
to_pandas#
您可以参考pandas生态系统页面,以获取更多关于pandas可以在哪些地方使用以及它支持哪些库的详细信息。
from modin.pandas.io import to_pandas
pandas_df = to_pandas(modin_df)
to_numpy#
您可以参考NumPy文档中的NumPy生态系统部分,以获取更多关于NumPy可以在哪些地方使用以及它支持哪些库的详细信息。
from modin.pandas.io import to_numpy
numpy_arr = to_numpy(modin_df)
to_ray#
您可以参考Ray Data页面,了解更多关于Ray Dataset可以在哪里使用以及它支持哪些库的详细信息。
from modin.pandas.io import to_ray
ray_dataset = to_ray(modin_df)
to_dask#
您可以参考Dask DataFrame页面,了解更多关于Dask DataFrame的用途以及它支持哪些库的详细信息。
from modin.pandas.io import to_dask
dask_df = to_dask(modin_df)