pandas.read_orc#

pandas.read_orc(path, columns=None, dtype_backend=_NoDefault.no_default, filesystem=None, **kwargs)[源代码]#

从文件路径加载 ORC 对象,返回一个 DataFrame。

Parameters:
path字符串、路径对象或文件类对象

字符串、路径对象 (实现 os.PathLike[str]) 或实现二进制 read() 函数的文件类对象。字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3 和 file。对于文件 URL,需要主机。本地文件可以是:file://localhost/path/to/table.orc

columnslist, default None

如果不是 None,则仅从文件中读取这些列。输出始终遵循文件的顺序而不是列的顺序。这反映了 pyarrow.orc.ORCFile.read() 的原始行为。

dtype_backend{‘numpy_nullable’, ‘pyarrow’}, 默认 ‘numpy_nullable’

应用于结果 DataFrame 的后端数据类型(仍处于实验阶段)。行为如下:

  • "numpy_nullable":返回支持可空 dtype 的 DataFrame (默认)。

  • "pyarrow":返回 pyarrow 支持的可空 ArrowDtype DataFrame。

在 2.0 版本加入.

filesystemfsspec 或 pyarrow 文件系统,默认为 None

读取 parquet 文件时使用的文件系统对象。

在 2.1.0 版本加入.

**kwargs

任何额外的 kwargs 都将传递给 pyarrow。

Returns:
DataFrame

Notes

在使用此函数之前,您应该阅读 user guide about ORCinstall optional dependencies

如果 path 是指向本地或远程文件的 URI 方案 (例如 “s3://”),则会尝试使用 pyarrow.fs 文件系统读取文件。您也可以将 pyarrow 或 fsspec 文件系统对象传递给 filesystem 关键字参数以覆盖此行为。

Examples

>>> result = pd.read_orc("example_pa.orc")