pandas.read_orc#

pandas.read_orc(path, columns=None, dtype_backend=<no_default>, filesystem=None, **kwargs)[源代码][源代码]#

从文件路径加载一个 ORC 对象，返回一个 DataFrame。

参数:

路径字符串, 路径对象, 或类文件对象

字符串、路径对象（实现 os.PathLike[str]）或实现二进制 read() 函数的类文件对象。字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3 和 file。对于文件 URL，需要一个主机。一个本地文件可能是：file://localhost/path/to/table.orc。

列列表，默认无

如果不是 None，则只会从文件中读取这些列。输出总是遵循文件的顺序，而不是列列表的顺序。这反映了 pyarrow.orc.ORCFile.read() 的原始行为。

dtype_backend{‘numpy_nullable’, ‘pyarrow’}

应用于结果 DataFrame 的后端数据类型（仍在实验中）。如果未指定，默认行为是不使用可空数据类型。如果指定，行为如下：

"numpy_nullable": 返回支持可空数据类型的 DataFrame
"pyarrow": 返回由 pyarrow 支持的可空 ArrowDtype DataFrame

Added in version 2.0.

文件系统fsspec 或 pyarrow 文件系统，默认 None

读取orc文件时使用的文件系统对象。

Added in version 2.1.0.

**kwargs

任何额外的 kwargs 都会传递给 pyarrow。

返回:

DataFrame: 基于 ORC 文件的 DataFrame。

参见

read_csv: 将逗号分隔值（csv）文件读取到 pandas DataFrame 中。
read_excel: 将 Excel 文件读取到 pandas DataFrame 中。
read_spss: 将 SPSS 文件读取到 pandas DataFrame 中。
read_sas: 将 SAS 文件加载到 pandas DataFrame 中。
read_feather: 将一个 feather 格式的对象加载到一个 pandas DataFrame 中。

备注

在使用此功能之前，您应该阅读关于 ORC 的用户指南和安装可选依赖项。

如果 path 是一个指向本地或远程文件的 URI 方案（例如 “s3://”），将尝试使用 pyarrow.fs 文件系统读取文件。您还可以将 pyarrow 或 fsspec 文件系统对象传递给 filesystem 关键字以覆盖此行为。

例子

>>> result = pd.read_orc("example_pa.orc")