torch_geometric.datasets.TAGDataset

class TAGDataset(root: str, dataset: InMemoryDataset, tokenizer_name: str, text: Optional[List[str]] = None, split_idx: Optional[Dict[str, Tensor]] = None, tokenize_batch_size: int = 256, token_on_disk: bool = False, text_on_disk: bool = False, force_reload: bool = False)[source]

Bases: InMemoryDataset

来自“通过变分推理在大规模文本属性图上学习”论文的文本属性图数据集。该数据集旨在将ogbn products、ogbn arxiv转换为文本属性图，其中图中的每个节点都与原始文本相关联，该数据集可以适应DataLoader（用于LM训练）和NeighborLoader（用于GNN训练）。此外，该类可以通过将带有Tokenizer和文本的InMemoryDataset转换为文本属性图来用作包装类。

Parameters:

root (str) – Root directory where the dataset should be saved.
数据集 (InMemoryDataset) – 数据集的名称 ("ogbn-products", "ogbn-arxiv").
tokenizer_name (str) – 语言模型的标记器名称，请确保使用与您在huggingface.co上的模型仓库中的model id相同的标记器名称。
文本 (列表[str]) – 与节点关联的原始文本列表，列表的顺序应与节点列表对齐
split_idx (可选[字典[str, torch.Tensor]]) – 可选字典，用于保存分割索引，如果你的数据集没有get_split_idx函数，则需要此参数
tokenize_batch_size (int) – 文本分词处理的批量大小，分词过程将在CPU上运行，默认值：256
token_on_disk (bool) – 是否将token保存为磁盘上的.pt文件，默认值：False
text_on_disk (bool) – 是否将给定的文本（字符串列表）保存为磁盘上的数据框，默认值：False
force_reload (bool) – 默认值: False

注意

参见 example/llm_plus_gnn/glem.py 以获取示例用法