pandera.api.pandas.components.Index

class pandera.api.pandas.components.Index(dtype=None, checks=None, parsers=None, nullable=False, unique=False, report_duplicates='all', coerce=False, name=None, title=None, description=None, default=None, metadata=None, drop_invalid_rows=False)[source]

验证 pandas DataFrame 索引的类型和属性。

初始化数组架构。

Parameters:
  • dtype (可选[任何, ]) – 列的数据类型。

  • 检查 (并集[检查, 列表[并集[检查, 假设]], ]) –

    如果 element_wise 为 True,则可调用的签名应该是:

    可调用[Any, 布尔值] 其中 Any 输入是列中的一个标量元素。否则,输入被假定为数据对象(系列,数据框)。

  • nullable (bool) – 列是否可以包含空值。

  • unique (bool) – 列是否可以包含重复值。

  • report_duplicates (Union[Literal[‘exclude_first’], Literal[‘exclude_last’], Literal[‘all’]]) – 如何报告唯一错误 - exclude_first: 报告除第一个出现外的所有重复项 - exclude_last: 报告除最后一个出现外的所有重复项 - all: (默认)报告所有重复项

  • 强制转换 (bool) – 如果为 True,当调用 schema.validate 时,列将被强制转换为指定的数据类型。这对列没有影响,其中 dtype=None

  • name (Any) – 要验证的 dataframe 中的列名。

  • 标题 (可选[字符串, ]) – 一个可供人类阅读的系列标签。

  • 描述 (可选[str, None]) – 一个任意的文本描述系列。

  • 元数据 (可选[字典, ]) – 一个可选的键值数据。

  • 默认 (可选[任何, ]) – 系列中缺失值的默认值。

  • drop_invalid_rows (bool) – 如果为 True,将在验证时删除无效行。

属性

BACKEND_REGISTRY

dtype

获取pandas的数据类型

names

获取索引模式组件中的索引名称。

properties

获取用于序列化的架构属性。

方法

example(size=None)[source]

生成特定大小的示例。

Parameters:

size (可选[int, None]) – 生成的索引中的元素数量。

Return type:

索引

Returns:

pandas索引对象。

strategy(*, size=None)[source]

为生成索引创建一个 hypothesis 策略。

Parameters:

size (可选[int, None]) – 要生成的元素数量。

Returns:

指数策略。

strategy_component()[source]

生成列数据对象以供 MultiIndex 策略使用。

__call__(check_obj, head=None, tail=None, sample=None, random_state=None, lazy=False, inplace=False)[source]

validate方法的别名。

Return type:

~T数据对象