GDELT数据集

class dgl.data.GDELTDataset(mode='train', raw_dir=None, force_reload=False, verbose=False, transform=None)[source]

Bases: DGLBuiltinDataset

基于事件的时间图的GDELT数据集

全球事件、语言和语调数据库(GDELT)数据集。 这包含了世界各地发生的事件(例如,在俄罗斯任何地方举行的每一次抗议活动在给定的一天内被合并为一个条目)。 该数据集包含从2018年1月1日到2018年1月31日收集的事件(15分钟的时间粒度)。

参考:

统计:

  • 训练示例:2,304

  • 有效示例:288

  • 测试示例:384

Parameters:
  • mode (str) – 必须是以下之一(‘train’, ‘valid’, ‘test’)。默认值:’train’

  • raw_dir (str) – Raw file directory to download/contains the input data directory. Default: ~/.dgl/

  • force_reload (bool) – Whether to reload the dataset. Default: False

  • verbose (bool) – Whether to print out progress information. Default: True.

  • transform (callable, optional) – A transform that takes in a DGLGraph object and returns a transformed version. The DGLGraph object will be transformed before every access.

start_time

时间图的开始时间

Type:

int

end_time

时间图的结束时间

Type:

int

is_temporal

数据集是否包含时间图

Type:

bool

示例

>>> # get train, valid, test dataset
>>> train_data = GDELTDataset()
>>> valid_data = GDELTDataset(mode='valid')
>>> test_data = GDELTDataset(mode='test')
>>>
>>> # length of train set
>>> train_size = len(train_data)
>>>
>>> for g in train_data:
....    e_feat = g.edata['rel_type']
....    # your code here
....
>>>
__getitem__(t)[source]

获取在时间 t + self.start_time 之前带有事件的图表

Parameters:

t (int) – 时间,其值必须在范围 [0, self.end_time - self.start_time] 内

Returns:

图表包含:

  • edata['rel_type']: 边类型

Return type:

dgl.DGLGraph

__len__()[source]

数据集中的图表数量。

Return type:

int