数据集¶
- lifelines.datasets.load_c_botulinum_lag_phase(**kwargs)¶
来自[1]的数据集,表示在30°C下测量的肉毒杆菌滞后期持续时间,以天为单位。数据是左和右删失的。 请注意,表格中没有6% NaCl,但作者提到没有生长发生(我们可以推断滞后期> 85天)。
参考文献
蒙维尔,托马斯·J。“pH值和NaCl对肉毒杆菌62A培养密度的相互作用。”应用与环境微生物学46.4(1983):961-963。
- lifelines.datasets.load_canadian_senators(**kwargs)¶
加拿大参议员在职历史:
Size: (933,10) Example: Name Abbott, John Joseph Caldwell Political Affiliation at Appointment Liberal-Conservative Province / Territory Quebec Appointed on the advice of Macdonald, John Alexander Term (yyyy.mm.dd) 1887.05.12 - 1893.10.30 (Death) start_date 1887-05-12 00:00:00 end_date 1893-10-30 00:00:00 reason Death diff_days 2363 observed True
- lifelines.datasets.load_dd(**kwargs)¶
政治体制分类为民主和独裁。 民主制度分类为议会制、半总统制(混合制)和总统制。 独裁制度分类为军事、平民和皇室。 覆盖范围:202个国家,从1946年或独立年份到2008年。
Size: (1808, 12) Example: ctryname Afghanistan cowcode2 700 politycode 700 un_region_name Southern Asia un_continent_name Asia ehead Mohammad Zahir Shah leaderspellreg Mohammad Zahir Shah.Afghanistan.1946.1952.Mona... democracy Non-democracy regime Monarchy start_year 1946 duration 7 observed 1
参考文献
Cheibub, José Antonio, Jennifer Gandhi, 和 James Raymond Vreeland. 2010. “民主与独裁再探.” 《公共选择》, 卷 143, 期 2-1, 页 67-101.
- lifelines.datasets.load_dfcv()¶
一个时间依赖数据集的玩具示例。
Size: (14, 6) Example: start group z stop id event 0 1.0 0 3.0 1 True 0 1.0 0 5.0 2 False 0 1.0 1 5.0 3 True 0 1.0 0 6.0 4 True
参考文献
- lifelines.datasets.load_diabetes(**kwargs)¶
一个区间删失数据集。
参考文献
Borch-Johnsens, K, Andersen, P 和 Decker, T (1985). “蛋白尿对I型(胰岛素依赖型)糖尿病相对死亡率的影响。” Diabetologia, 28, 590-596.
Size: (731, 3) Example: left right gender 24 27 male 22 22 female 37 39 male 20 20 male 1 16 male 8 20 female 14 14 male
- lifelines.datasets.load_g3(**kwargs)¶
Size: (17,7) Example: no. 1 age 41 sex Female histology Grade3 group RIT event True time 53
- lifelines.datasets.load_gbsg2(**kwargs)¶
一个包含来自GBSG2研究的686名女性的观察数据的数据框:
Size: (686,10) Example: horTh yes age 56 menostat Post tsize 12 tgrade II pnodes 7 progrec 61 estrec 77 time 2018 cens 1
参考文献
Sauerbrei 和 P. Royston (1999). 构建多变量预后和诊断模型:通过使用分数多项式对预测变量进行转换。皇家统计学会系列A,第162卷(1),71–94
Schumacher, G. Basert, H. Bojar, K. Huebner, M. Olschewski, W. Sauerbrei, C. Schmoor, C. Beyerle, R.L.A. Neumann 和 H.F. Rauschecker 为德国乳腺癌研究组(1994年),评估激素治疗和化疗持续时间在淋巴结阳性乳腺癌患者中的随机2×2试验。临床肿瘤学杂志,12,2086–2093
- lifelines.datasets.load_holly_molly_polly(**kwargs)¶
来自 https://stat.ethz.ch/education/semesters/ss2011/seminar/contents/presentation_10.pdf 用作CoxPH在复发性SA中的玩具示例:
ID Status Stratum Start(days) Stop(days) tx T 0 M 1 1 0 100 1 100 1 M 1 2 100 105 1 5 2 H 1 1 0 30 0 30 3 H 1 2 30 50 0 20 4 P 1 1 0 20 0 20
- lifelines.datasets.load_kidney_transplant(**kwargs)¶
D.3 来自 Klein 和 Moeschberger 的《生物学与健康统计》,1997年。
Size: (863,6) Example: time 5 death 0 age 51 black_male 0 white_male 1 black_female 0
- lifelines.datasets.load_larynx(**kwargs)¶
Size: (89,6) Example: time age death Stage_II Stage_III Stage_IV 0.6 77 1 0 0 0 1.3 53 1 0 0 0 2.4 45 1 0 0 0 2.5 57 0 0 0 0 3.2 58 1 0 0 0
- lifelines.datasets.load_lcd(**kwargs)¶
加利福尼亚州圣华金河谷两个不同地质区域的浅层地下水样品中的铜浓度(µg/L)。冲积扇数据包括四种不同的检测限,盆地槽数据包括五种不同的检测限。
参考¶
Millard, S.P. 和 Deverel, S.J. (1988). 基于具有多个未检测限的数据比较两个地点的非参数统计方法. 水资源研究 24: doi: 10.1029/88WR03412. issn: 0043-1397.
Size: (104,3) Example: C T group 0 1 alluvial_fan 0 1 alluvial_fan 0 1 alluvial_fan 0 1 alluvial_fan 1 1 alluvial_fan
- lifelines.datasets.load_leukemia(**kwargs)¶
白血病数据集:
Size: (42,5) Example: t status sex logWBC Rx 0 35 0 1 1.45 0 1 34 0 1 1.47 0 2 32 0 1 2.20 0 3 32 0 1 2.53 0 4 25 0 1 1.78 0
参考文献
来自 http://web1.sph.emory.edu/dkleinb/allDatasets/surv2datasets/anderson.dat
- lifelines.datasets.load_lung(**kwargs)¶
来自北中央癌症治疗组的晚期肺癌患者的生存情况。表现评分评估患者进行日常活动的能力。
- ::
大小: (288,10) 示例:
- inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss
3.0 306 1 74 1 1.0 90.0 100.0 1175.0 NaN 3.0 455 1 68 1 0.0 90.0 90.0 1225.0 15.0 3.0 1010 0 56 1 0.0 90.0 90.0 NaN 15.0 5.0 210 1 57 1 1.0 90.0 60.0 1150.0 11.0 1.0 883 1 60 1 0.0 100.0 90.0 NaN 0.0
参考文献
Loprinzi CL. Laurie JA. Wieand HS. Krook JE. Novotny PJ. Kugler JW. Bartel J. Law M. Bateman M. Klatt NE. 等。前瞻性评估患者填写的问卷中的预后变量。北中央癌症治疗组。临床肿瘤学杂志。12(3):601-7, 1994.
- lifelines.datasets.load_lupus(**kwargs)¶
参见 https://projecteuclid.org/download/pdf_1/euclid.aos/1176345693
注意
我从原始论文中转录了这些内容,并且高度怀疑存在差异。请参阅下面的注释。
参考文献
Merrell, M., & Shulman, L. E. (1955). 慢性疾病预后的确定,以系统性红斑狼疮为例。Journal of Chronic Diseases, 1(1), 12–32. doi:10.1016/0021-9681(55)90018-7
注释
在 lifelines v0.23.7 中,两行数据被更新为更准确的数据(最初是转录问题)。
- lifelines.datasets.load_lymph_node(**kwargs)¶
参考文献
Schmoor, C., Sauerbrei, W. Bastert, G., Schumacher, M. (2000). 乳腺癌孤立局部复发的作用:四项前瞻性研究的结果。临床肿瘤学杂志,18(8), 1696-1708.
Schumacher, M., Bastert, G., Bojar, H., Hiibner, K., Olschewski, M., Sauerbrei, W., Schmoor, C., Beyerle, C., Neumann, R.L.A. 和 Rauschecker, H.F. 代表德国乳腺癌研究组 (GBSG) (1994). 一项评估激素治疗和化疗持续时间在淋巴结阳性乳腺癌患者中的随机2 x 2试验. 临床肿瘤学杂志, 12, 2086-2093.
Hosmer, D.W. 和 Lemeshow, S. 以及 May, S. (2008). 应用生存分析:事件时间数据的回归建模:第二版, John Wiley and Sons Inc., 纽约, 纽约
- lifelines.datasets.load_lymphoma(**kwargs)¶
Size: (80, 3) Example: Stage_group Time Censor 1 6 1 1 19 1 1 32 1 1 42 1 1 42 1
参考文献
来自 https://www.statsdirect.com/help/content/survival_analysis/logrank.htm
- lifelines.datasets.load_mice(**kwargs)¶
一个关于小鼠肿瘤在两个不同环境中的区间删失观测数据集。
参考文献
Hoel D. 和 Walburg, H.,(1972), 生存实验的统计分析, 统计学年鉴, 18, 1259-1294
- lifelines.datasets.load_multicenter_aids_cohort_study(**kwargs)¶
最初在 [1]:
Size: (78, 4) AIDSY: date of AIDS diagnosis W: years from AIDS diagnosis to study entry T: years from AIDS diagnosis to minimum of death or censoring D: indicator of death during follow up i AIDSY W T D 1 1990.425 4.575 7.575 0 2 1991.250 3.750 6.750 0 3 1992.014 2.986 5.986 0 4 1992.030 2.970 5.970 0 5 1992.072 2.928 5.928 0 6 1992.220 2.780 4.688 1
参考文献
[1] Cole SR, Hudgens MG. 传染病研究中的生存分析:描述时间中的事件。艾滋病。2010;24(16):2423-31.
- lifelines.datasets.load_nh4(**kwargs)¶
在奥林匹克国家公园,霍赫护林站(WA14)测量的降水中的铵(NH4)浓度(mg/L),从2009年1月6日至2011年12月20日,每周或每隔一周测量一次。
参考¶
国家大气沉降计划,国家趋势网络(NADP/NTN)。 http://nadp.slh.wisc.edu/data/sites/siteDetails.aspx?net=NTN&id=WA14 http://nadp.isws.illinois.edu/NTN/
Size: (104,3)
- lifelines.datasets.load_panel_test(**kwargs)¶
Size: (28,5) Example: id t E var1 var2 1 1 0 0.0 1 1 2 0 0.0 1 1 3 0 4.0 3 1 4 1 8.0 4 2 1 0 1.2 1
- lifelines.datasets.load_psychiatric_patients(**kwargs)¶
Size: (26,4) Example: Age T C sex 51 1 1 2 58 1 1 2 55 2 1 2 28 22 1 2 21 30 0 1
- lifelines.datasets.load_recur(**kwargs)¶
来自ftp://ftp.wiley.com/public/sci_tech_med/survival/,首次发表于《应用生存分析:事件时间数据的回归建模,第二版》:
ID Subject Identification 1 - 400 AGE Age years TREAT Treatment Assignment 0 = New 1 = Old TIME0 Day of Previous Episode Days TIME1 Day of New Episode Days or censoring CENSOR Indicator for Soreness 1 = Episode Occurred Episode or Censoring at TIME1 0 = Censored EVENT Soreness Episode Number 0 to at most 4 Size: (1296, 7) Example: ID,AGE,TREAT,TIME0,TIME1,CENSOR,EVENT 1,43,0,9,56,1,3 1,43,0,56,88,1,4 1,43,0,0,6,1,1 1,43,0,6,9,1,2
- lifelines.datasets.load_regression_dataset(**kwargs)¶
人工回归数据集。由于此数据集中没有重复项,因此非常有用。 然而,在v0.15.0中进行了轻微编辑以实现这一点:
Size: (200,5) Example: var1 var2 var3 T E 0.595170 1.143472 1.571079 14.785479 1 0.209325 0.184677 0.356980 7.336734 1 0.693919 0.071893 0.557960 5.271527 1 0.443804 1.364646 0.374221 11.684168 1 1.613324 0.125566 1.921325 7.637764 1
- lifelines.datasets.load_rossi(**kwargs)¶
该数据集最初来自Rossi等人(1980年),并在Allison(1995年)中作为示例使用。数据涉及1970年代从马里兰州立监狱释放的432名罪犯,并在释放后对他们进行了为期一年的跟踪调查。其中一半的释放罪犯被随机分配到实验组,他们获得了经济援助;另一半则没有获得援助。
Size: (432,9) Example: week 20 arrest 1 fin 0 age 27 race 1 wexp 0 mar 0 paro 1 prio 3
参考文献
Rossi, P.H., R.A. Berk, 和 K.J. Lenihan (1980). 金钱、工作和犯罪:一些实验结果. 纽约: 学术出版社. John Fox, Marilia Sa Carvalho (2012). RcmdrPlugin.survival 包:扩展 R Commander 界面以进行生存分析. 统计软件杂志, 49(7), 1-32.
- lifelines.datasets.load_stanford_heart_transplants(**kwargs)¶
这是一个用于生存回归的经典数据集,包含随时间变化的协变量。原始数据集来自[1],而这个数据集来自R的生存库:
Size: (172, 8) Example: start stop event age year surgery transplant id 0.0 50.0 1 -17.155373 0.123203 0 0 1 0.0 6.0 1 3.835729 0.254620 0 0 2 0.0 1.0 0 6.297057 0.265572 0 0 3 1.0 16.0 1 6.297057 0.265572 0 1 3 0.0 36.0 0 -7.737166 0.490075 0 0 4
参考文献
- [1] J Crowley and M Hu. Covariance analysis of heart transplant survival data. J American
统计协会,72:27–36,1977年。
- lifelines.datasets.load_static_test(**kwargs)¶
Size: (7,5) Example: id t E var1 var2 1 4 1 -1 -1 2 3 1 -2 -2 3 3 0 -3 -3 4 4 1 -4 -4 5 2 1 -5 -5 6 0 1 -6 -6 7 2 1 -7 -7
- lifelines.datasets.load_waltons(**kwargs)¶
果蝇的基因型和存活天数。由于我们研究的是果蝇,因此不需要担心左截尾问题。我们知道所有果蝇的出生日期。但我们确实会遇到意外杀死一些果蝇或一些果蝇逃脱的问题。这些情况将被视为右截尾,因为我们实际上没有观察到它们因“自然”原因死亡。
Size: (163,3) Example: T E group 6 1 miR-137 13 1 miR-137 13 1 miR-137 13 1 miR-137 19 1 miR-137