pandas.read_orc#
- pandas.read_orc(path, columns=None, dtype_backend=_NoDefault.no_default, filesystem=None, **kwargs)[源代码]#
从文件路径加载 ORC 对象,返回一个 DataFrame。
- Parameters:
- path字符串、路径对象或文件类对象
字符串、路径对象 (实现
os.PathLike[str]) 或实现二进制read()函数的文件类对象。字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3 和 file。对于文件 URL,需要主机。本地文件可以是:file://localhost/path/to/table.orc。- columnslist, default None
如果不是 None,则仅从文件中读取这些列。输出始终遵循文件的顺序而不是列的顺序。这反映了
pyarrow.orc.ORCFile.read()的原始行为。- dtype_backend{‘numpy_nullable’, ‘pyarrow’}, 默认 ‘numpy_nullable’
应用于结果
DataFrame的后端数据类型(仍处于实验阶段)。行为如下:"numpy_nullable":返回支持可空 dtype 的DataFrame(默认)。"pyarrow":返回 pyarrow 支持的可空ArrowDtypeDataFrame。
在 2.0 版本加入.
- filesystemfsspec 或 pyarrow 文件系统,默认为 None
读取 parquet 文件时使用的文件系统对象。
在 2.1.0 版本加入.
- **kwargs
任何额外的 kwargs 都将传递给 pyarrow。
- Returns:
- DataFrame
Notes
在使用此函数之前,您应该阅读 user guide about ORC 和 install optional dependencies 。
如果
path是指向本地或远程文件的 URI 方案 (例如 “s3://”),则会尝试使用pyarrow.fs文件系统读取文件。您也可以将 pyarrow 或 fsspec 文件系统对象传递给 filesystem 关键字参数以覆盖此行为。Examples
>>> result = pd.read_orc("example_pa.orc")