torch_geometric.data.Dataset

class Dataset(root: Optional[str] = None, transform: Optional[Callable] = None, pre_transform: Optional[Callable] = None, pre_filter: Optional[Callable] = None, log: bool = True, force_reload: bool = False)[source]

基础类:Dataset

用于创建图数据集的数据集基类。 请参阅这里以获取相关教程。

Parameters:
  • root (str, optional) – 数据集应保存的根目录。 (可选: None)

  • transform (callable, optional) – 一个函数/转换,它接受一个 DataHeteroData 对象并返回一个 转换后的版本。 数据对象将在每次访问之前进行转换。 (默认: None)

  • pre_transform (callable, optional) – 一个函数/转换,它接收一个 DataHeteroData 对象并返回一个 转换后的版本。 数据对象将在保存到磁盘之前进行转换。 (默认: None)

  • pre_filter (callable, optional) – 一个函数,接收一个 DataHeteroData 对象并返回一个 布尔值,表示该数据对象是否应包含在最终数据集中。(默认值:None

  • log (bool, optional) – 是否在下载和处理数据集时打印任何控制台输出。(默认值:True

  • force_reload (bool, optional) – 是否重新处理数据集。 (默认: False)

property raw_file_names: Union[str, List[str], Tuple[str, ...]]

必须存在于self.raw_dir文件夹中的文件名,以便跳过下载。

Return type:

Union[str, List[str], Tuple[str, ...]]

property processed_file_names: Union[str, List[str], Tuple[str, ...]]

必须存在于self.processed_dir文件夹中的文件名,以便跳过处理。

Return type:

Union[str, List[str], Tuple[str, ...]]

download() None[source]

将数据集下载到self.raw_dir文件夹。

Return type:

None

process() None[source]

将数据集处理到self.processed_dir文件夹。

Return type:

None

len() int[source]

返回数据集中存储的数据对象的数量。

Return type:

int

get(idx: int) BaseData[source]

获取索引 idx 处的数据对象。

Return type:

BaseData

property num_node_features: int

返回数据集中每个节点的特征数量。

Return type:

int

property num_features: int

返回数据集中每个节点的特征数量。 num_node_features 的别名。

Return type:

int

property num_edge_features: int

返回数据集中每条边的特征数量。

Return type:

int

property num_classes: int

返回数据集中类的数量。

Return type:

int

property raw_paths: List[str]

必须存在的绝对文件路径,以便跳过下载。

Return type:

List[str]

property processed_paths: List[str]

必须存在的绝对文件路径,以便跳过处理。

Return type:

List[str]

property has_download: bool

检查数据集是否定义了download()方法。

Return type:

bool

property has_process: bool

检查数据集是否定义了process()方法。

Return type:

bool

翻译后的内容:

bool

在这个例子中,`bool` 是一个Python函数名称,根据翻译规则1,不需要翻译。因此,翻译后的内容保持不变。
index_select(idx: Union[slice, Tensor, ndarray, Sequence]) 数据集[source]

从指定的索引 idx 创建数据集的子集。 索引 idx 可以是一个切片对象,例如 [2:5],一个 列表,一个元组,或者一个 torch.Tensornp.ndarray 类型 为 long 或 bool。

Return type:

数据集

shuffle(return_perm: bool = False) Union[数据集, Tuple[数据集, Tensor]][source]

随机打乱数据集中的示例。

Parameters:

return_perm (bool, 可选) – 如果设置为 True,还将返回用于打乱数据集的随机排列。 (默认: False)

Return type:

Union[Dataset, Tuple[Dataset, Tensor]]

get_summary() Any[source]

收集数据集的汇总统计信息。

Return type:

Any

print_summary(fmt: str = 'psql') None[source]

将数据集的摘要统计信息打印到控制台。

Parameters:

fmt (str, optional) – 汇总表格格式。可用的表格格式可以在这里找到。(默认:"psql"

Return type:

None

to_datapipe() Any[source]

将数据集转换为torch.utils.data.DataPipe

返回的实例随后可以与内置的 DataPipes一起使用,用于批处理图,如下所示:

from torch_geometric.datasets import QM9

dp = QM9(root='./data/QM9/').to_datapipe()
dp = dp.batch_graphs(batch_size=2, drop_last=True)

for batch in dp:
    pass

请参阅PyTorch教程以获取更多关于DataPipes的背景信息。

Return type:

Any