pandera.api.dataframe.components.ComponentSchema¶
- class pandera.api.dataframe.components.ComponentSchema(dtype=None, checks=None, parsers=None, nullable=False, unique=False, report_duplicates='all', coerce=False, name=None, title=None, description=None, default=None, metadata=None, drop_invalid_rows=False)[source]¶
数据容器组件的基类,例如:列。
初始化数组架构。
- Parameters:
检查 (
联合[检查,列表[联合[检查,假设]],无]) –如果 element_wise 为 True,则可调用的签名应为:
Callable[Any, bool]其中Any输入为列中的标量元素。否则,输入被假定为数据对象(Series,DataFrame)。nullable (
bool) – 列是否可以包含空值。unique (
bool) – 列是否可以包含重复值。report_duplicates (
Union[Literal[‘exclude_first’],Literal[‘exclude_last’],Literal[‘all’]]) – 如何报告唯一错误 - exclude_first: 报告除第一个出现外的所有重复项 - exclude_last: 报告除最后一个出现外的所有重复项 - all: (默认)报告所有重复项强制转换 (
bool) – 如果为真,当调用 schema.validate 时,该列将被强制转换为指定的数据类型。这对dtype=None的列没有影响。name (
Any) – 要验证的 dataframe 中的列名。drop_invalid_rows (
bool) – 如果为 True,将在验证时删除无效行。
属性
BACKEND_REGISTRYproperties获取用于序列化的架构属性。
方法
- __init__(dtype=None, checks=None, parsers=None, nullable=False, unique=False, report_duplicates='all', coerce=False, name=None, title=None, description=None, default=None, metadata=None, drop_invalid_rows=False)[source]¶
初始化数组架构。
- Parameters:
检查 (
并集[检查,列表[并集[检查,假设]],无]) –如果 element_wise 为 True,则可调用的签名应该是:
可调用[Any, 布尔值]其中Any输入是列中的一个标量元素。否则,输入被假定为数据对象(系列,数据框)。nullable (
bool) – 列是否可以包含空值。unique (
bool) – 列是否可以包含重复值。report_duplicates (
Union[Literal[‘exclude_first’],Literal[‘exclude_last’],Literal[‘all’]]) – 如何报告唯一错误 - exclude_first: 报告除第一个出现外的所有重复项 - exclude_last: 报告除最后一个出现外的所有重复项 - all: (默认)报告所有重复项强制转换 (
bool) – 如果为 True,当调用 schema.validate 时,列将被强制转换为指定的数据类型。这对列没有影响,其中dtype=None。name (
Any) – 要验证的 dataframe 中的列名。drop_invalid_rows (
bool) – 如果为 True,将在验证时删除无效行。
- coerce_dtype(check_obj)[source]¶
通过dtype中指定的类型强制转换数据类型。
- Parameters:
check_obj (~TDataObject) – 要强制转换的数据
- Return type:
~T数据对象
- Returns:
与输入相同类型的数据
- validate(check_obj, head=None, tail=None, sample=None, random_state=None, lazy=False, inplace=False)[source]¶
验证数据框中的一系列或特定列。