数据集

lifelines.datasets.load_c_botulinum_lag_phase(**kwargs)

来自[1]的数据集,表示在30°C下测量的肉毒杆菌滞后期持续时间,以天为单位。数据是左和右删失的。 请注意,表格中没有6% NaCl,但作者提到没有生长发生(我们可以推断滞后期> 85天)。

参考文献

蒙维尔,托马斯·J。“pH值和NaCl对肉毒杆菌62A培养密度的相互作用。”应用与环境微生物学46.4(1983):961-963。

lifelines.datasets.load_canadian_senators(**kwargs)

加拿大参议员在职历史:

Size: (933,10)
Example:
    Name                                        Abbott, John Joseph Caldwell
    Political Affiliation at Appointment                Liberal-Conservative
    Province / Territory                                              Quebec
    Appointed on the advice of                     Macdonald, John Alexander
    Term (yyyy.mm.dd)                       1887.05.12 - 1893.10.30  (Death)
    start_date                                           1887-05-12 00:00:00
    end_date                                             1893-10-30 00:00:00
    reason                                                             Death
    diff_days                                                           2363
    observed                                                            True
lifelines.datasets.load_dd(**kwargs)

政治体制分类为民主和独裁。 民主制度分类为议会制、半总统制(混合制)和总统制。 独裁制度分类为军事、平民和皇室。 覆盖范围:202个国家,从1946年或独立年份到2008年。

Size: (1808, 12)
Example:
    ctryname                                                   Afghanistan
    cowcode2                                                           700
    politycode                                                         700
    un_region_name                                           Southern Asia
    un_continent_name                                                 Asia
    ehead                                              Mohammad Zahir Shah
    leaderspellreg       Mohammad Zahir Shah.Afghanistan.1946.1952.Mona...
    democracy                                                Non-democracy
    regime                                                        Monarchy
    start_year                                                        1946
    duration                                                             7
    observed                                                             1

参考文献

Cheibub, José Antonio, Jennifer Gandhi, 和 James Raymond Vreeland. 2010. “民主与独裁再探.” 《公共选择》, 卷 143, 期 2-1, 页 67-101.

lifelines.datasets.load_dfcv()

一个时间依赖数据集的玩具示例。

Size: (14, 6)
Example:

 start  group  z  stop  id  event
     0    1.0  0   3.0   1   True
     0    1.0  0   5.0   2  False
     0    1.0  1   5.0   3   True
     0    1.0  0   6.0   4   True

参考文献

来自 http://www.math.ucsd.edu/~rxu/math284/slect7.pdf

lifelines.datasets.load_diabetes(**kwargs)

一个区间删失数据集。

参考文献

Borch-Johnsens, K, Andersen, P 和 Decker, T (1985). “蛋白尿对I型(胰岛素依赖型)糖尿病相对死亡率的影响。” Diabetologia, 28, 590-596.

Size: (731, 3)
Example:

   left  right  gender
     24     27    male
     22     22  female
     37     39    male
     20     20    male
      1     16    male
      8     20  female
     14     14    male
lifelines.datasets.load_g3(**kwargs)
Size: (17,7)
Example:
    no.               1
    age              41
    sex          Female
    histology    Grade3
    group           RIT
    event          True
    time             53
lifelines.datasets.load_gbsg2(**kwargs)

一个包含来自GBSG2研究的686名女性的观察数据的数据框:

Size: (686,10)
Example:
    horTh           yes
    age             56
    menostat        Post
    tsize           12
    tgrade          II
    pnodes          7
    progrec         61
    estrec          77
    time            2018
    cens            1

参考文献

  1. Sauerbrei 和 P. Royston (1999). 构建多变量预后和诊断模型:通过使用分数多项式对预测变量进行转换。皇家统计学会系列A,第162卷(1),71–94

  1. Schumacher, G. Basert, H. Bojar, K. Huebner, M. Olschewski, W. Sauerbrei, C. Schmoor, C. Beyerle, R.L.A. Neumann 和 H.F. Rauschecker 为德国乳腺癌研究组(1994年),评估激素治疗和化疗持续时间在淋巴结阳性乳腺癌患者中的随机2×2试验。临床肿瘤学杂志,12,2086–2093

lifelines.datasets.load_holly_molly_polly(**kwargs)

来自 https://stat.ethz.ch/education/semesters/ss2011/seminar/contents/presentation_10.pdf 用作CoxPH在复发性SA中的玩具示例:

  ID  Status  Stratum  Start(days)  Stop(days)  tx    T
0  M       1        1            0         100   1  100
1  M       1        2          100         105   1    5
2  H       1        1            0          30   0   30
3  H       1        2           30          50   0   20
4  P       1        1            0          20   0   20
lifelines.datasets.load_kidney_transplant(**kwargs)

D.3 来自 Klein 和 Moeschberger 的《生物学与健康统计》,1997年。

Size: (863,6)
Example:
    time             5
    death            0
    age             51
    black_male       0
    white_male       1
    black_female     0
lifelines.datasets.load_larynx(**kwargs)
Size: (89,6)
Example:
    time  age  death  Stage_II  Stage_III  Stage_IV
     0.6   77      1         0          0         0
     1.3   53      1         0          0         0
     2.4   45      1         0          0         0
     2.5   57      0         0          0         0
     3.2   58      1         0          0         0
lifelines.datasets.load_lcd(**kwargs)

加利福尼亚州圣华金河谷两个不同地质区域的浅层地下水样品中的铜浓度(µg/L)。冲积扇数据包括四种不同的检测限,盆地槽数据包括五种不同的检测限。

参考

Millard, S.P. 和 Deverel, S.J. (1988). 基于具有多个未检测限的数据比较两个地点的非参数统计方法. 水资源研究 24: doi: 10.1029/88WR03412. issn: 0043-1397.

Size: (104,3)
Example:
    C  T         group
    0  1  alluvial_fan
    0  1  alluvial_fan
    0  1  alluvial_fan
    0  1  alluvial_fan
    1  1  alluvial_fan
lifelines.datasets.load_leukemia(**kwargs)

白血病数据集:

Size: (42,5)
Example:
        t  status  sex  logWBC  Rx
    0  35       0    1    1.45   0
    1  34       0    1    1.47   0
    2  32       0    1    2.20   0
    3  32       0    1    2.53   0
    4  25       0    1    1.78   0

参考文献

来自 http://web1.sph.emory.edu/dkleinb/allDatasets/surv2datasets/anderson.dat

lifelines.datasets.load_lung(**kwargs)

来自北中央癌症治疗组的晚期肺癌患者的生存情况。表现评分评估患者进行日常活动的能力。

::

大小: (288,10) 示例:

inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss

3.0 306 1 74 1 1.0 90.0 100.0 1175.0 NaN 3.0 455 1 68 1 0.0 90.0 90.0 1225.0 15.0 3.0 1010 0 56 1 0.0 90.0 90.0 NaN 15.0 5.0 210 1 57 1 1.0 90.0 60.0 1150.0 11.0 1.0 883 1 60 1 0.0 100.0 90.0 NaN 0.0

参考文献

Loprinzi CL. Laurie JA. Wieand HS. Krook JE. Novotny PJ. Kugler JW. Bartel J. Law M. Bateman M. Klatt NE. 等。前瞻性评估患者填写的问卷中的预后变量。北中央癌症治疗组。临床肿瘤学杂志。12(3):601-7, 1994.

lifelines.datasets.load_lupus(**kwargs)

参见 https://projecteuclid.org/download/pdf_1/euclid.aos/1176345693

注意

我从原始论文中转录了这些内容,并且高度怀疑存在差异。请参阅下面的注释。

参考文献

Merrell, M., & Shulman, L. E. (1955). 慢性疾病预后的确定,以系统性红斑狼疮为例。Journal of Chronic Diseases, 1(1), 12–32. doi:10.1016/0021-9681(55)90018-7

注释

在 lifelines v0.23.7 中,两行数据被更新为更准确的数据(最初是转录问题)。

lifelines.datasets.load_lymph_node(**kwargs)

参考文献

Schmoor, C., Sauerbrei, W. Bastert, G., Schumacher, M. (2000). 乳腺癌孤立局部复发的作用:四项前瞻性研究的结果。临床肿瘤学杂志,18(8), 1696-1708.

Schumacher, M., Bastert, G., Bojar, H., Hiibner, K., Olschewski, M., Sauerbrei, W., Schmoor, C., Beyerle, C., Neumann, R.L.A. 和 Rauschecker, H.F. 代表德国乳腺癌研究组 (GBSG) (1994). 一项评估激素治疗和化疗持续时间在淋巴结阳性乳腺癌患者中的随机2 x 2试验. 临床肿瘤学杂志, 12, 2086-2093.

Hosmer, D.W. 和 Lemeshow, S. 以及 May, S. (2008). 应用生存分析:事件时间数据的回归建模:第二版, John Wiley and Sons Inc., 纽约, 纽约

lifelines.datasets.load_lymphoma(**kwargs)
Size: (80, 3)
Example:

  Stage_group  Time  Censor
            1     6       1
            1    19       1
            1    32       1
            1    42       1
            1    42       1

参考文献

来自 https://www.statsdirect.com/help/content/survival_analysis/logrank.htm

lifelines.datasets.load_mice(**kwargs)

一个关于小鼠肿瘤在两个不同环境中的区间删失观测数据集。

参考文献

Hoel D. 和 Walburg, H.,(1972), 生存实验的统计分析, 统计学年鉴, 18, 1259-1294

lifelines.datasets.load_multicenter_aids_cohort_study(**kwargs)

最初在 [1]:

Size: (78, 4)

AIDSY: date of AIDS diagnosis
W: years from AIDS diagnosis to study entry
T: years from AIDS diagnosis to minimum of death or censoring
D: indicator of death during follow up


i   AIDSY       W      T        D
1   1990.425    4.575   7.575   0
2   1991.250    3.750   6.750   0
3   1992.014    2.986   5.986   0
4   1992.030    2.970   5.970   0
5   1992.072    2.928   5.928   0
6   1992.220    2.780   4.688   1

参考文献

[1] Cole SR, Hudgens MG. 传染病研究中的生存分析:描述时间中的事件。艾滋病。2010;24(16):2423-31.

lifelines.datasets.load_nh4(**kwargs)

在奥林匹克国家公园,霍赫护林站(WA14)测量的降水中的铵(NH4)浓度(mg/L),从2009年1月6日至2011年12月20日,每周或每隔一周测量一次。

参考

国家大气沉降计划,国家趋势网络(NADP/NTN)。 http://nadp.slh.wisc.edu/data/sites/siteDetails.aspx?net=NTN&id=WA14 http://nadp.isws.illinois.edu/NTN/

Size: (104,3)
lifelines.datasets.load_panel_test(**kwargs)
Size: (28,5)
Example:
    id  t  E  var1  var2
     1  1  0   0.0     1
     1  2  0   0.0     1
     1  3  0   4.0     3
     1  4  1   8.0     4
     2  1  0   1.2     1
lifelines.datasets.load_psychiatric_patients(**kwargs)
Size: (26,4)
Example:
    Age   T  C  sex
     51   1  1    2
     58   1  1    2
     55   2  1    2
     28  22  1    2
     21  30  0    1
lifelines.datasets.load_recur(**kwargs)

来自ftp://ftp.wiley.com/public/sci_tech_med/survival/,首次发表于《应用生存分析:事件时间数据的回归建模,第二版》:

ID          Subject Identification        1 - 400
AGE         Age                           years
TREAT       Treatment Assignment          0 = New
                                          1 = Old
TIME0       Day of Previous Episode       Days
TIME1       Day of New Episode            Days
              or censoring
CENSOR      Indicator for Soreness        1 = Episode Occurred
              Episode or Censoring            at TIME1
                                          0 = Censored
EVENT       Soreness Episode Number       0 to at most 4

Size: (1296, 7)
Example:
    ID,AGE,TREAT,TIME0,TIME1,CENSOR,EVENT
    1,43,0,9,56,1,3
    1,43,0,56,88,1,4
    1,43,0,0,6,1,1
    1,43,0,6,9,1,2
lifelines.datasets.load_regression_dataset(**kwargs)

人工回归数据集。由于此数据集中没有重复项,因此非常有用。 然而,在v0.15.0中进行了轻微编辑以实现这一点:

Size: (200,5)
Example:
        var1      var2      var3          T  E
    0.595170  1.143472  1.571079  14.785479  1
    0.209325  0.184677  0.356980   7.336734  1
    0.693919  0.071893  0.557960   5.271527  1
    0.443804  1.364646  0.374221  11.684168  1
    1.613324  0.125566  1.921325   7.637764  1
lifelines.datasets.load_rossi(**kwargs)

该数据集最初来自Rossi等人(1980年),并在Allison(1995年)中作为示例使用。数据涉及1970年代从马里兰州立监狱释放的432名罪犯,并在释放后对他们进行了为期一年的跟踪调查。其中一半的释放罪犯被随机分配到实验组,他们获得了经济援助;另一半则没有获得援助。

Size: (432,9)
Example:
    week      20
    arrest     1
    fin        0
    age       27
    race       1
    wexp       0
    mar        0
    paro       1
    prio       3

参考文献

Rossi, P.H., R.A. Berk, 和 K.J. Lenihan (1980). 金钱、工作和犯罪:一些实验结果. 纽约: 学术出版社. John Fox, Marilia Sa Carvalho (2012). RcmdrPlugin.survival 包:扩展 R Commander 界面以进行生存分析. 统计软件杂志, 49(7), 1-32.

lifelines.datasets.load_stanford_heart_transplants(**kwargs)

这是一个用于生存回归的经典数据集,包含随时间变化的协变量。原始数据集来自[1],而这个数据集来自R的生存库:

Size: (172, 8)
Example:
    start  stop  event        age      year  surgery  transplant  id
      0.0  50.0      1 -17.155373  0.123203        0           0   1
      0.0   6.0      1   3.835729  0.254620        0           0   2
      0.0   1.0      0   6.297057  0.265572        0           0   3
      1.0  16.0      1   6.297057  0.265572        0           1   3
      0.0  36.0      0  -7.737166  0.490075        0           0   4

参考文献

[1] J Crowley and M Hu. Covariance analysis of heart transplant survival data. J American

统计协会,72:27–36,1977年。

lifelines.datasets.load_static_test(**kwargs)
Size: (7,5)
Example:
    id  t  E  var1  var2
     1  4  1    -1    -1
     2  3  1    -2    -2
     3  3  0    -3    -3
     4  4  1    -4    -4
     5  2  1    -5    -5
     6  0  1    -6    -6
     7  2  1    -7    -7
lifelines.datasets.load_waltons(**kwargs)

果蝇的基因型和存活天数。由于我们研究的是果蝇,因此不需要担心左截尾问题。我们知道所有果蝇的出生日期。但我们确实会遇到意外杀死一些果蝇或一些果蝇逃脱的问题。这些情况将被视为右截尾,因为我们实际上没有观察到它们因“自然”原因死亡。

Size: (163,3)
Example:
     T  E    group
     6  1  miR-137
    13  1  miR-137
    13  1  miR-137
    13  1  miR-137
    19  1  miR-137