torch_geometric.datasets.TAGDataset
- class TAGDataset(root: str, dataset: InMemoryDataset, tokenizer_name: str, text: Optional[List[str]] = None, split_idx: Optional[Dict[str, Tensor]] = None, tokenize_batch_size: int = 256, token_on_disk: bool = False, text_on_disk: bool = False, force_reload: bool = False)[source]
Bases:
InMemoryDataset来自“通过变分推理在大规模文本属性图上学习”论文的文本属性图数据集。 该数据集旨在将ogbn products、ogbn arxiv转换为文本属性图,其中图中的每个节点都与原始文本相关联,该数据集可以适应DataLoader(用于LM训练)和NeighborLoader(用于GNN训练)。此外,该类可以通过将带有Tokenizer和文本的InMemoryDataset转换为文本属性图来用作包装类。
- Parameters:
root (str) – Root directory where the dataset should be saved.
数据集 (InMemoryDataset) – 数据集的名称 (
"ogbn-products","ogbn-arxiv").tokenizer_name (str) – 语言模型的标记器名称, 请确保使用与您在huggingface.co上的模型仓库中的model id相同的标记器名称。
文本 (列表[str]) – 与节点关联的原始文本列表,列表的顺序应与节点列表对齐
split_idx (可选[字典[str, torch.Tensor]]) – 可选字典, 用于保存分割索引,如果你的数据集没有get_split_idx函数,则需要此参数
tokenize_batch_size (int) – 文本分词处理的批量大小,分词过程将在CPU上运行,默认值:256
token_on_disk (bool) – 是否将token保存为磁盘上的.pt文件, 默认值:False
text_on_disk (bool) – 是否将给定的文本(字符串列表)保存为磁盘上的数据框,默认值:False
force_reload (bool) – 默认值: False
注意
参见 example/llm_plus_gnn/glem.py 以获取示例用法