假新闻数据集

class dgl.data.FakeNewsDataset(name, feature_name, raw_dir=None, transform=None)[source]

Bases: DGLBuiltinDataset

虚假新闻图分类数据集。

该数据集由从Twitter提取的两组树状结构的假/真新闻传播图组成。与大多数用于图分类任务的基准数据集不同,该数据集中的图是有向树状结构图,其中根节点代表新闻,叶节点是转发了根新闻的Twitter用户。此外,节点特征是使用不同的预训练语言模型编码的用户历史推文:

  • bert: 由bert-as-service编码的Twitter用户历史推文组成的768维节点特征

  • 内容:由300维“spacy”向量和10维“profile”向量组成的310维节点特征

  • profile: 由十个Twitter用户资料属性组成的10维节点特征。

  • spacy: 由Twitter用户历史推文通过spaCy word2vec编码器编码组成的300维节点特征。

参考: <https://github.com/safe-graph/GNN-FakeNews>

注意:此数据集仅供学术使用,禁止商业用途。

统计:

政治事实:

  • 图表:314

  • 节点数:41,054

  • 边数: 40,740

  • 类:

    • 假:157

    • 实际值: 157

  • 节点特征大小:

    • bert: 768

    • 内容: 310

    • 个人资料: 10

    • spacy: 300

Gossipcop:

  • 图表:5,464

  • 节点数:314,262

  • 边数: 308,798

  • 类:

    • 虚假: 2,732

    • 实际: 2,732

  • 节点特征大小:

    • bert: 768

    • 内容: 310

    • 个人资料: 10

    • spacy: 300

Parameters:
  • name (str) – 数据集的名称(gossipcop 或 politifact)

  • feature_name (str) – 特征的名称(bert, content, profile, 或 spacy)

  • raw_dir (str) – Specifying the directory that will store the downloaded data or the directory that already stores the input data. Default: ~/.dgl/

  • transform (callable, optional) – A transform that takes in a DGLGraph object and returns a transformed version. The DGLGraph object will be transformed before every access.

name

数据集的名称(gossipcop 或 politifact)

Type:

str

num_classes

标签类别数量

Type:

int

num_graphs

图形数量

Type:

int

graphs

DGLGraph对象的列表

Type:

list

labels

图形标签

Type:

张量

feature_name

特征名称(bert、content、profile 或 spacy)

Type:

str

feature

节点特性

Type:

张量

train_mask

训练集的掩码

Type:

张量

val_mask

验证集的掩码

Type:

张量

test_mask

测试集的掩码

Type:

张量

示例

>>> dataset = FakeNewsDataset('gossipcop', 'bert')
>>> graph, label = dataset[0]
>>> num_classes = dataset.num_classes
>>> feat = dataset.feature
>>> labels = dataset.labels
__getitem__(i)[source]

通过索引获取图形和标签

Parameters:

i (int) – 项目索引

Return type:

(dgl.DGLGraph, Tensor)

__len__()[source]

数据集中的图表数量。

Return type:

int