Skip to content

用户指南

安装

pip install pandarallel [--upgrade] [--user]

使用

首先,您必须导入 pandarallel:

from pandarallel import pandarallel

然后,你必须初始化它。

pandarallel.initialize()

该方法接受5个可选参数:

  • shm_size_mb: 已弃用 - 请勿使用。
  • nb_workers: 并行化使用的工作线程数量。 (int) 如果未设置,则默认为可用核心的数量。
  • progress_bar: 如果设置为 True,则显示进度条。 (bool,默认值为 False)
  • verbose: 详细级别(整数,默认值为2
    • 0 - 不显示任何日志
    • 1 - 仅显示警告日志
    • 2 - 显示所有日志
  • use_memory_fs: (bool, None 默认值)
    • 如果设置为 None,并且内存文件系统可用,pandarallel 将使用它在主进程和工作线程之间传输数据。如果内存文件系统不可用,pandarallel 将默认使用多进程数据传输(管道)。
    • 如果设置为 Truepandarallel 将使用内存文件系统在主进程和工作线程之间传输数据,并将在内存文件系统不可用时引发 SystemError
    • 如果设置为 Falsepandarallel 将使用多进程数据传输(管道)在主进程和工作线程之间传输数据。

使用内存文件系统可以减少主进程与工作进程之间的数据传输时间,尤其是在大数据场景下。

内存文件系统只有在目录 /dev/shm 存在且用户具有读取和写入权限时才被认为可用。

基本上,内存文件系统仅在某些Linux发行版上可用(包括Ubuntu)。