pandas.read_orc#

pandas.read_orc(path, columns=None, dtype_backend=<no_default>, filesystem=None, **kwargs)[源代码][源代码]#

从文件路径加载一个 ORC 对象,返回一个 DataFrame。

参数:
路径字符串, 路径对象, 或类文件对象

字符串、路径对象(实现 os.PathLike[str])或实现二进制 read() 函数的类文件对象。字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3 和 file。对于文件 URL,需要一个主机。一个本地文件可能是:file://localhost/path/to/table.orc

列表,默认无

如果不是 None,则只会从文件中读取这些列。输出总是遵循文件的顺序,而不是列列表的顺序。这反映了 pyarrow.orc.ORCFile.read() 的原始行为。

dtype_backend{‘numpy_nullable’, ‘pyarrow’}

应用于结果 DataFrame 的后端数据类型(仍在实验中)。如果未指定,默认行为是不使用可空数据类型。如果指定,行为如下:

Added in version 2.0.

文件系统fsspec 或 pyarrow 文件系统,默认 None

读取orc文件时使用的文件系统对象。

Added in version 2.1.0.

**kwargs

任何额外的 kwargs 都会传递给 pyarrow。

返回:
DataFrame

基于 ORC 文件的 DataFrame。

参见

read_csv

将逗号分隔值(csv)文件读取到 pandas DataFrame 中。

read_excel

将 Excel 文件读取到 pandas DataFrame 中。

read_spss

将 SPSS 文件读取到 pandas DataFrame 中。

read_sas

将 SAS 文件加载到 pandas DataFrame 中。

read_feather

将一个 feather 格式的对象加载到一个 pandas DataFrame 中。

备注

在使用此功能之前,您应该阅读关于 ORC 的 用户指南安装可选依赖项

如果 path 是一个指向本地或远程文件的 URI 方案(例如 “s3://”),将尝试使用 pyarrow.fs 文件系统读取文件。您还可以将 pyarrow 或 fsspec 文件系统对象传递给 filesystem 关键字以覆盖此行为。

例子

>>> result = pd.read_orc("example_pa.orc")