split_dataset

class dgl.data.utils.split_dataset(dataset, frac_list=None, shuffle=False, random_state=None)[source]

基础类:

将数据集分割为训练集、验证集和测试集。

Parameters:
  • dataset – 我们假设 len(dataset) 给出数据点的数量,而 dataset[i] 给出第 i 个数据点。

  • frac_list (listNone, 可选) – 一个长度为3的列表,包含用于训练、验证和测试的比例。如果为None,我们将使用[0.8, 0.1, 0.1]。

  • shuffle (bool, optional) – 默认情况下,我们对数据集进行连续分割。如果为True,我们将首先随机打乱数据集。

  • random_state (None, int or array_like, optional) – 用于初始化伪随机数生成器的随机种子。 可以是0到2**32 - 1之间的任何整数,一个包含这些整数的数组(或其他序列),或者None(默认值)。 如果种子为None,则RandomState将尝试从/dev/urandom(或Windows的等效项)读取数据(如果可用),否则将从时钟中获取种子。

Returns:

用于训练、验证和测试的子集。

Return type:

list 长度为 3