pandera.api.dataframe.model.DataFrameModel

class pandera.api.dataframe.model.DataFrameModel(*args, **kwargs)[source]

数据框模型的基类。

请参阅 用户指南 以获取更多信息。

根据模式规范验证数据框。

Parameters:
  • check_obj (pd.DataFrame) – 要验证的数据框。

  • head – 验证前n行。与 tailsample 重叠的行会被去重。

  • tail – 验证最后 n 行。与 headsample 重叠的行会被去重。

  • sample – 验证 n 行的随机样本。与 headtail 重叠的行将被去重。

  • random_statesample 参数的随机种子。

  • lazy – 如果为 True,则懒惰地对数据框进行所有验证检查,并引发一个 SchemaErrors。否则,一旦发生错误,立即引发 SchemaError

  • inplace – 如果为True,应用强制转换到验证对象, 否则创建数据的副本。

Returns:

验证过的 DataFrame

Raises:

SchemaError – 当 DataFrame 违反内置或自定义检查时。

方法

classmethod build_schema_(**kwargs)[source]
Return type:

~TSchema

classmethod example(cls, **kwargs)[source]

生成特定大小的示例。

Parameters:

size – 生成的 DataFrame 中的元素数量。

Return type:

DataFrameBase[~TDataFrameModel]

Returns:

数据框对象。

classmethod get_metadata()[source]

提供列和模式级别的元数据

Return type:

可选[字典, ]

classmethod pydantic_validate(schema_model)[source]

验证输入是否为兼容的数据框模型。

Return type:

DataFrameModel

classmethod strategy(cls, **kwargs)[source]

创建一个 hypothesis 策略来生成一个 DataFrame。

Parameters:
  • size – 生成的元素数量

  • n_regex_columns – 生成的正则表达式列的数量。

Returns:

生成 DataFrame 对象的策略。

classmethod to_json_schema()[source]

将模式元数据序列化为 json-schema 格式。

classmethod to_schema()[source]

DataFrameModel 创建 DataFrameSchema

Return type:

~TSchema

classmethod to_yaml(stream=None)[source]

Schema 转换为 yaml 使用 io.to_yaml

classmethod validate(check_obj, head=None, tail=None, sample=None, random_state=None, lazy=False, inplace=False)[source]

根据模式规范验证数据框。

Parameters:
  • check_obj (pd.DataFrame) – 要验证的数据框。

  • head (可选[int, None]) – 验证前 n 行。与 tailsample 重叠的行会被去重。

  • tail (可选[整型, ]) – 验证最后 n 行。与 headsample 重叠的行将被去重。

  • 示例 (可选[int, None]) – 验证 n 行的随机样本。与 头部尾部 交叠的行会被去重。

  • random_state (可选[int, ]) – sample 参数的随机种子。

  • 懒惰 (bool) – 如果为 True,懒惰地对数据框进行所有验证检查,并引发一个 SchemaErrors。否则,立即抛出第一个出现的 SchemaError

  • inplace (bool) – 如果为 True,则对验证对象应用强制转换,否则创建数据的副本。

Return type:

DataFrameBase[~TDataFrameModel]

Returns:

验证过的 DataFrame

Raises:

SchemaError – 当 DataFrame 违反内置或自定义检查时。