pandas.read_orc#
- pandas.read_orc(path, columns=None, dtype_backend=<no_default>, filesystem=None, **kwargs)[源代码][源代码]#
从文件路径加载一个 ORC 对象,返回一个 DataFrame。
- 参数:
- 路径字符串, 路径对象, 或类文件对象
字符串、路径对象(实现
os.PathLike[str]
)或实现二进制read()
函数的类文件对象。字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3 和 file。对于文件 URL,需要一个主机。一个本地文件可能是:file://localhost/path/to/table.orc
。- 列列表,默认无
如果不是 None,则只会从文件中读取这些列。输出总是遵循文件的顺序,而不是列列表的顺序。这反映了
pyarrow.orc.ORCFile.read()
的原始行为。- dtype_backend{‘numpy_nullable’, ‘pyarrow’}
应用于结果
DataFrame
的后端数据类型(仍在实验中)。如果未指定,默认行为是不使用可空数据类型。如果指定,行为如下:"numpy_nullable"
: 返回支持可空数据类型的DataFrame
"pyarrow"
: 返回由 pyarrow 支持的可空ArrowDtype
DataFrame
Added in version 2.0.
- 文件系统fsspec 或 pyarrow 文件系统,默认 None
读取orc文件时使用的文件系统对象。
Added in version 2.1.0.
- **kwargs
任何额外的 kwargs 都会传递给 pyarrow。
- 返回:
- DataFrame
基于 ORC 文件的 DataFrame。
参见
read_csv
将逗号分隔值(csv)文件读取到 pandas DataFrame 中。
read_excel
将 Excel 文件读取到 pandas DataFrame 中。
read_spss
将 SPSS 文件读取到 pandas DataFrame 中。
read_sas
将 SAS 文件加载到 pandas DataFrame 中。
read_feather
将一个 feather 格式的对象加载到一个 pandas DataFrame 中。
备注
在使用此功能之前,您应该阅读关于 ORC 的 用户指南 和 安装可选依赖项。
如果
path
是一个指向本地或远程文件的 URI 方案(例如 “s3://”),将尝试使用pyarrow.fs
文件系统读取文件。您还可以将 pyarrow 或 fsspec 文件系统对象传递给 filesystem 关键字以覆盖此行为。例子
>>> result = pd.read_orc("example_pa.orc")