pandas.Series.to_hdf#

Series.to_hdf(path_or_buf, *, key, mode='a', complevel=None, complib=None, append=False, format=None, index=True, min_itemsize=None, nan_rep=None, dropna=None, data_columns=None, errors='strict', encoding='UTF-8')[源代码]#

使用 HDFStore 将包含的数据写入 HDF5 文件。

分层数据格式 (HDF) 是自描述的,允许应用程序在没有任何外部信息的情况下解释文件的结构和内容。一个 HDF 文件可以包含一组相关对象的混合,这些对象可以作为一个组或作为individual 对象进行访问。

为了将另一个 DataFrame 或 Series 添加到现有 HDF 文件中,请使用追加模式和一个不同的键。

警告

可以将 DataFrame 或 Series 的子类存储到 HDF5 中,但子类的类型在存储时会丢失。

有关更多信息,请参阅 user guide

Parameters:
path_or_bufstr 或 pandas.HDFStore

文件路径或 HDFStore 对象。

keystr

存储中组的标识符。

mode{‘a’, ‘w’, ‘r+’}, 默认 ‘a’

打开文件的模式:

  • ‘w’:写入,创建一个新文件(同名现有文件将被删除)。

  • ‘a’:追加,打开现有文件进行读写,如果文件不存在则创建。

  • ‘r+’:类似于 ‘a’,但文件必须已存在。

complevel{0-9}, 默认 None

指定数据的压缩级别。值为 0 或 None 则禁用压缩。

complib{‘zlib’, ‘lzo’, ‘bzip2’, ‘blosc’}, 默认 ‘zlib’

指定要使用的压缩库。Blosc 支持以下附加压缩器(如果未指定压缩器,则默认为 ‘blosc:blosclz’):{‘blosc:blosclz’, ‘blosc:lz4’, ‘blosc:lz4hc’, ‘blosc:snappy’, ‘blosc:zlib’, ‘blosc:zstd’}。指定一个不可用的压缩库将引发 ValueError。

appendbool,默认 False

对于 Table 格式,将输入数据追加到现有数据中。

format{‘fixed’, ‘table’, None}, 默认 ‘fixed’

可能的值:

  • ‘fixed’:固定格式。写入/读取速度快。不可追加,也不可搜索。

  • ‘table’:表格式。以 PyTables 表结构写入,可能性能较差,但允许更灵活的操作,如搜索/选择数据子集。

  • 如果为 None,则检查 pd.get_option(‘io.hdf.default_format’),然后回退到 “fixed”。

indexbool, default True

将 DataFrame 索引作为一列写入。

min_itemsizedict 或 int,可选

将列名映射到列的最小字符串大小。

nan_rep任意类型,可选

如何将 null 值表示为字符串。append=True 时不允许。

dropnabool,默认 False,可选

删除缺失值。

data_columns列名列表或 True,可选

用于在磁盘上查询的索引数据列的列名列表,或 True 表示使用所有列。默认情况下,仅索引对象的轴。有关更多信息,请参阅 Query via data columns 。仅适用于 format=’table’。

errorsstr, 默认为 ‘strict’

指定如何处理编码和解码错误。有关选项的完整列表,请参阅 open() 的 errors 参数。

encodingstr,默认 “UTF-8”

参见

read_hdf

从 HDF 文件读取。

DataFrame.to_orc

将 DataFrame 写入二进制 orc 格式。

DataFrame.to_parquet

将 DataFrame 写入二进制 parquet 格式。

DataFrame.to_sql

写入 SQL 表。

DataFrame.to_feather

将 DataFrame 写入 feather 格式。

DataFrame.to_csv

写入到 CSV 文件。

Examples

>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]},
...                   index=['a', 'b', 'c'])  
>>> df.to_hdf('data.h5', key='df', mode='w')  

我们可以将另一个对象添加到同一个文件中:

>>> s = pd.Series([1, 2, 3, 4])  
>>> s.to_hdf('data.h5', key='s')  

从 HDF 文件读取:

>>> pd.read_hdf('data.h5', 'df')  
A  B
a  1  4
b  2  5
c  3  6
>>> pd.read_hdf('data.h5', 's')  
0    1
1    2
2    3
3    4
dtype: int64