autogluon.core.TabularDataset¶

class autogluon.core.TabularDataset(data, **kwargs)[source]¶

一个以表格形式呈现的数据集（行代表样本，列代表特征/变量）。该类在初始化时返回一个pd.DataFrame，并且所有现有的pandas方法都可以应用于它。有关方法/属性的完整列表，请参阅pandas Dataframe文档：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

此类的目的是提供一个易于使用的简写，用于加载pandas DataFrame以在AutoGluon中使用。

Parameters:: data (str, pd.DataFrame, np.ndarray, Iterable, 或 dict) – 如果是字符串，则为数据文件的路径（CSV 或 Parquet 格式）。如果您已经将数据存储在 pd.DataFrame 中，您可以在此处指定。在这种情况下，将返回相同的 DataFrame，不做任何更改。

示例

>>> import pandas as pd
>>> from autogluon.common import TabularDataset
>>> train_data = TabularDataset("https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv")
>>> train_data_pd = pd.read_csv("https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv")
>>> assert isinstance(train_data, pd.DataFrame)  # True
>>> assert train_data.equals(train_data_pd)  # True
>>> assert type(train_data) == type(train_data_pd)  # True

__init__()¶

方法