autogluon.core.TabularDataset

class autogluon.core.TabularDataset(data, **kwargs)[source]

一个以表格形式呈现的数据集(行代表样本,列代表特征/变量)。 该类在初始化时返回一个pd.DataFrame,并且所有现有的pandas方法都可以应用于它。 有关方法/属性的完整列表,请参阅pandas Dataframe文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

此类的目的是提供一个易于使用的简写,用于加载pandas DataFrame以在AutoGluon中使用。

Parameters:

data (str, pd.DataFrame, np.ndarray, Iterable, 或 dict) – 如果是字符串,则为数据文件的路径(CSV 或 Parquet 格式)。 如果您已经将数据存储在 pd.DataFrame 中,您可以在此处指定。在这种情况下,将返回相同的 DataFrame,不做任何更改。

示例

>>> import pandas as pd
>>> from autogluon.common import TabularDataset
>>> train_data = TabularDataset("https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv")
>>> train_data_pd = pd.read_csv("https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv")
>>> assert isinstance(train_data, pd.DataFrame)  # True
>>> assert train_data.equals(train_data_pd)  # True
>>> assert type(train_data) == type(train_data_pd)  # True
__init__()

方法