autogluon.core.TabularDataset¶
- class autogluon.core.TabularDataset(data, **kwargs)[source]¶
一个以表格形式呈现的数据集(行代表样本,列代表特征/变量)。 该类在初始化时返回一个
pd.DataFrame,并且所有现有的pandas方法都可以应用于它。 有关方法/属性的完整列表,请参阅pandas Dataframe文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html此类的目的是提供一个易于使用的简写,用于加载pandas DataFrame以在AutoGluon中使用。
- Parameters:
data (str,
pd.DataFrame,np.ndarray, Iterable, 或 dict) – 如果是字符串,则为数据文件的路径(CSV 或 Parquet 格式)。 如果您已经将数据存储在pd.DataFrame中,您可以在此处指定。在这种情况下,将返回相同的 DataFrame,不做任何更改。
示例
>>> import pandas as pd >>> from autogluon.common import TabularDataset >>> train_data = TabularDataset("https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv") >>> train_data_pd = pd.read_csv("https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv") >>> assert isinstance(train_data, pd.DataFrame) # True >>> assert train_data.equals(train_data_pd) # True >>> assert type(train_data) == type(train_data_pd) # True
- __init__()¶
方法