跳到主要内容

澄清有关“风险因素”的问题:预测因素与解释因素

摘要

背景

在生物医学研究中,被认为浪费了很多努力。改进的建议在很大程度上重点关注流程和程序。在这里,我们此外,我们还提出了关于所解决的问题的歧义。

方法

我们澄清了两个合并概念,预测和解释之间的区别,这两个概念都包含在术语“风险因素”中,并给出了适合每一个概念的方法和表述。

结果

风险预测研究使用统计技术生成具体环境的数据驱动模型,需要具有代表性的样本,有效地确定面临健康状况风险的人(干预的目标人群)。风险预测研究不一定包括病因(干预目标),但可能包括廉价且容易测量的病因替代物或生物标志物。解释性研究,理想地嵌入现实的信息模型中,评估因果因素的作用,如果以干预为目标,可能会改善结果。预测模型可以识别疾病风险升高的人或人群,从而能够针对因果因素采取经证实的干预措施。解释性模型允许对目标人群的因果因素进行识别,以预防疾病。

结论

确保问题与方法和解释清晰匹配,将减少因误解而造成的研究浪费。

介绍

生物医学研究已经到了一个被认为浪费了很多研究努力的危机[1].改善情况的建议主要集中在流程和程序上,例如从已知的情况着手解决影响大的问题、登记方案和提供可用数据[1].在这里,我们还建议,确保概念方法与问题匹配,可以避免将不同的问题合并,并将一个问题的答案错误地作为另一个问题的答案。许多观察性生物医学研究关注“危险因素”在疾病中的作用,进行这些研究有两个主要原因,(1)危险分层或预测,(2)因果关系评估。这是两个本质上不同的问题,涉及两个不同的概念,即预测与解释,它们需要不同的方法,有本质上不同的解释。然而,使用术语“风险因素”作为可以预测和/或解释的东西意味着这两个概念可能被合并在一起,因此一项研究可能无法实现任何一个目标,即既不能预测也不能解释。例如,心血管疾病的主要预测因子长期以来被认为是干预的目标[2].经过超过35年的广泛和昂贵的研究投资,包括开发、测试和失败的整个新一类药物(CETP抑制剂)[3.],高密度脂蛋白胆固醇最近被确定为心血管疾病的非因果危险因素(即预测因素)[45].同样,不预测风险的因素非常漫不知是因因素(例如在给定的社区中无处不在的因素,因此没有被捕获为越来越大的风险)[6,这表明人们忽视了干预措施。鉴于避免“低优先级问题”的重要性[1,在此,我们澄清这两个概念之间的区别以及它们在观察性研究中的使用。

预测模型

风险分层、预测模型或“天气预报”模型确定某一特定健康状况风险高或高的人或群体,理想情况下,可以向他们提供经过验证的干预措施,或实施其他缓解措施。风险分层模型的一个非常成功的例子是弗雷明汉评分,它预测健康人群10年患心脏病的风险[7],以告知预防措施,如使用脂质调节剂。其他例子包括确定最佳癌症治疗的预后模型[8,或预测疾病趋势的模型,如谷歌流感趋势[9].这些预测模型通常依赖于对以前模式的统计预测,而要使其可行,通常依赖于容易捕获的信息。例如,弗雷明汉评分可以应用于日常临床实践,即使在资源贫乏的环境中,因为它只需要评估年龄、性别、吸烟、血压、血脂和糖尿病,这些相对便宜和快速测量。谷歌流感趋势是基于对特定症状的互联网搜索词[9].

预测模型通常是根据统计标准开发的,以很好地拟合数据的分布,使用的技术如逐步选择,或最近的机器学习技术。预测模型通常包括几个“风险因素”,以获得一个模型,该模型很好地拟合数据,并可以解释结果健康状况的最大数量的方差。给出了每个“风险因素”的贡献,以便读者可以看到每个“风险因素”对整体预测的独立贡献,以及模型拟合的度量。预测模型通常在相似的人群中得到验证。与所有的统计模型一样,它们不能被期望在新的情况下很好地预测[9],并且最好使用具有代表性的人口样本进行开发。持续糟糕的测量会降低精度,因为它增加了噪声。不一致的不良测量将损害预测能力,因为它可能改变危险因素和结果之间的关系。预测模型可能不能推广到不同的群体,因为在一个新的群体中,预测因素和真实的因果因素之间的相关性可能是不同的。例如,弗雷明汉模型经常需要校准,以正确预测新人群中心脏病的绝对风险[10].虽然谷歌流感趋势不再提供估计;它变得不准确,可能是因为该模型需要动态重新校准搜索词和流感之间的关系,以保持在轨道上[9].经过试验和检验的预测模型对于确定目标人群(即需要预防或治疗的人群或群体)非常有价值,但预测健康状况的“风险因素”不一定是干预的目标。例如,流感症状不会引起流感,也不是预防流感发生的干预目标。风险分层模型中预测健康状况的“风险因素”是否也是干预的目标,必须从旨在评估干预效果的不同研究中确定。因此,从风险预测模型中计算人口归因风险或“风险因素”的比例是不适当的,因为去除这些“风险因素”可能会也可能不会影响人口健康。类似地,预测模型的目的是解释结果中最大数量的方差,所以只需要包括有助于解释方差的因素。混杂、中介和效果测量修正等概念不适用于预测模型。相互作用项可以添加到预测模型中以提高模型拟合,但这些相互作用不应被解释为表明不同子组的影响。

解释模型

解释性模型可以被认为是简化的、抽象的、关于世界如何运作的某些方面的命题模型,它为如何操纵感兴趣的项目提供了指导。因此,解释性模型是基于潜在的因果因素,即操纵改变结果的因素[11].评估因果关系的研究是解释性的而不是预测性的。解释性模型旨在评估某一特定“风险因素”是否能解释疾病的发生或过程,并因此成为有效的干预目标。作为潜在因果因素选择的“风险因素”可能是基于预测模型中的“风险因素”,可能是基于理论的,也可能是来自其他来源的假设。例如,弗雷明汉评分包括吸烟、血压等因素,这些因素无疑会导致心脏病,但也包括年龄、性别、高密度脂蛋白等其他“危险因素”,这些因素在心脏病发病中的作用尚不明确[12].相反,不能预测疾病的因素可以根据生理学或成熟的理论确定为可能的因果因素。例如,观察到的端粒长度似乎不能预测肾细胞癌,但是遗传上端粒较长的人患肾癌的风险更大[13,提示肾细胞癌与其他癌症一样具有因果作用[14].

评估因果因素的作用的研究需要避免旨在评估因果关系的观察研究中的主要偏差来源,这可能是最简单地认为混淆和选择偏见[1516].另外,测量误差通常被认为是作为额外的偏置来源,尽管非差分测量误差通常朝向空位偏差,并且可以被认为是选择偏差的形式。当省略推定原因和健康状况的外来常见原因时,发生混淆,从而观察到虚假关系。例如,吸烟会导致黄色手指和肺癌,因此对黄色手指对肺癌的因果作用的任何评估需要考虑吸烟。难以避免混淆,除非已知推定原因和疾病的所有常见原因。最简单的选择之一,当不可能进行实验研究(随机对照试验)时,是使用孟德尔随机化等方法,这对混淆不太开放[17].没有一种方法是没有假设的,孟德尔随机化有严格的假设,但它澄清了一些关于心血管疾病的原因的争议,如高密度脂蛋白胆固醇[18].需要从因果关系的外部知识中识别出一组足够的混杂因素,在研究中准确测量并纳入分析模型,以便任何残余混杂因素都不会导致错误的因果推理。考虑到评估已知和未知混杂因素的困难,证明受相同混杂因素影响的其他关联的估计与已知的因果效应相一致,这就更加相信来自同一研究的任何新估计[1920.].例如,对女性进行的激素替代疗法(HRT)观察研究发现,事故和心血管疾病都有明显的益处[21,这表明心血管疾病的残留混淆,因为激素替代疗法在生理上并不能预防事故。在冠状动脉药物项目试验中,这些明显具有保护作用的发现与雌激素对男性没有益处也不一致[22并可能导致年轻女性心肌梗塞[23].尽管如此,可以通过收集有关研究参与者的足够相关信息,以便通过调整,治疗加权或标准化的逆概率占所有混淆来在观察研究中解决混淆。

混淆是一个因果概念,与预测模型无关[24].混杂不能从观察数据可靠地评估;这意味着在基于统计相关性或估计变化的分析模型中测试混杂因素是无效的。相反地,不是混杂因素的因素不应该被包括在分析模型中,因为它们可能会阻止对所讨论的假设原因的全部影响的评估。例如,一项旨在评估酒精对中风影响的观察性研究不应将血压作为混杂因素纳入模型。血压可能会导致中风,但更有可能是饮酒的结果,而不是饮酒的原因,这使得血压更像是一个中介而不是混淆因素。因此,调整血压模型并不能完全发挥酒精对中风的作用。为了评估潜在因果因素的作用而设计的研究应该只给出有关假设原因的效果估计,因为模型中其他因素的估计不太可能被正确地控制为混杂(有时被称为“表2谬论”)[25].然而,由于难以明确地识别混杂因素,因此提出适应不同混杂因素集的模型可能是有帮助的。此外,提出对假设原因的粗略估计和调整估计,可以阐明影响估计受假设混杂因素的影响程度。

当样本无意中被构建成产生虚假关系的方式时,选择偏差就会发生,最常见的是无意选择对假设的原因和结果的共同影响[24,因此有时被描述为“对撞机偏差”。例如,一项评估吸烟与老年肺癌关系的研究可能发现没有关系,因为根据定义,样本仅是那些从吸烟习惯中幸存下来的人,即依赖吸烟而没有患肺癌的人[26].选择偏见难以检测,因为可能需要概念化假设的因果暴露在研究中缺乏疾病的关系。例如,评估患有糖尿病人的肥胖症与死亡的关系的研究[27]不会给出一个有效的因果估计,除非它考虑到肥胖与糖尿病患者死亡之间的关系,这些糖尿病患者由于疾病或先前死亡而缺席了这项研究。同样,基于潜在原因和疾病的测量也可能产生潜在原因和疾病之间的虚假联系。只有在某些情况下,从选择偏差中恢复是可能的,例如当外部数据可用时,但不能保证[16].

解释模型中的生物医学“风险因素”具有潜在的因果关系,也就是说,操纵“风险因素”会改变结果,就像所有的因果因素一样,在日常经验中,在特定的应用领域中,预期它们是一致的,因此是可概括的(或更准确地说,可迁移的[1124])到其他情况。然而,这种一致性可能并不总是明显的或相关的,因为并非所有解释性模型的所有部分都可以适用于所有情况。例如,肺癌的解释性模型可包括吸烟和石棉,其中包括通过操纵吸烟来减少肺癌的因素不会有效地在禁烟中有效。因此,需要考虑如何应用解释模型,以便对任何给定人群的相关因果区作用[24].应计算人口归因风险或解释因素的比例,因为操纵这些因果因素可能影响人口健康。然而,可归因风险或比例告诉我们,如果没有接触,结果的多少比例不会发生,但不能保证这将是消除接触的效果。

总结

预测和解释健康状况的风险是用完全不同的方法和含义回答两个根本不同的问题。在这种情况下,研究人员需要确定他们研究的意图或目的,如确定谁处于风险(风险分层)或什么将是一个有效的干预(解释),以确保研究问题得到适当和有效的解决。一些“风险因素”既可以是预测因素,也可以是解释因素,同时,这可能导致这些术语在研究界的合并。例如,血压既是心血管疾病的预测因素,也是病因。然而,将血压视为风险预测因素的研究与将血压视为解释因素的研究有着不同的目的、研究问题和研究方法。预测和解释通常需要在概念化、建模、分析、验证、表示、解释、概括和风险归因方面采用不同的方法,如表所示1.风险预测研究使用统计技术来生成具体环境的数据驱动模型,需要一个具有代表性的样本,有效地识别有疾病风险的人,但不一定确定干预目标。解释性研究,理想地嵌入现实的解释性模型中,测试可能是干预目标的因果因素。预测模型使公共卫生从业人员能够确定疾病风险升高的人群,从而能够针对因果因素采取经证实的干预措施。解释性模型使公共卫生专业人员能够识别针对不同人群的致病因素,从而预防疾病。

表1预测模型与因果模型的属性

结论

明确区分观察生物医学研究的不同目的,并明确匹配研究人员意图的方法,解释和措辞将使研究资源更加集中和生产性。避免了不精确的术语“风险因素”,以及在因果研究中的风险分层研究中的“预测因素”和“解释性”因素中的单词可能带来明确的思想,从而减少生物医学研究中的无责任假设。

参考文献

  1. 1.

    王志强,等。提高生物医学研究的价值和减少浪费:谁在听?柳叶刀》。2016;387(10027):1573 - 86。

    文章PUBMED.谷歌学术搜索

  2. 2.

    等。心血管疾病风险概况。[美心J. 1991;121(1 2页):293-8 .]

    文章PUBMED.中科院谷歌学术搜索

  3. 3.

    尼科尔斯SJ。cetp抑制和hdl -胆固醇:CV的风险或益处,或两者兼而有之。临床药理学。2018。https://doi.org/10.1002/cpt.1118

    PUBMED.文章谷歌学术搜索

  4. 4.

    等。高密度脂蛋白靶向药物治疗烟酸、贝特酸和CETP抑制剂对心血管风险的影响:包括117411例患者的随机对照试验的荟萃分析BMJ。2014; 349: g4379。

    文章PUBMED.公共医学中心中科院谷歌学术搜索

  5. 5。

    博伊特BF等。血浆高密度脂蛋白胆固醇与心肌梗死风险:一项孟德尔随机研究。柳叶刀》。2012;380(9841):572 - 80。

    文章PUBMED.公共医学中心中科院谷歌学术搜索

  6. 6。

    约阿尼迪斯JP, Tarone R, McLaughlin JK。流行病学研究中假阳性与假阴性的比例。流行病学。2011;22(4):450 - 6。

    文章PUBMED.谷歌学术搜索

  7. 7。

    等。使用危险因素分类预测冠心病。循环。1998;97(18):1837 - 47。

    文章PUBMED.中科院谷歌学术搜索

  8. 8.

    Turnbull Ak等人。准确的预测与乳腺癌内分泌治疗响应的预测和验证。J Clin Oncol。2015; 33(20):2270-8。

    文章PUBMED.中科院谷歌学术搜索

  9. 9.

    激光D,等。大数据。谷歌流感的寓言:大数据分析中的陷阱。科学。2014;343(6176):1203 - 5。

    文章PUBMED.中科院谷歌学术搜索

  10. 10.

    刘杰,等。与中国多省队列研究相比,弗拉明查姆CHD风险评估工具的预测价值。《美国医学协会杂志》上。2004; 291(21):2591-9。

    文章PUBMED.中科院谷歌学术搜索

  11. 11.

    因果关系:模型、推理和推论。剑桥:剑桥大学出版社;2009.

    谷歌学术搜索

  12. 12.

    动脉粥样硬化的脂质危险因素的基因分析令人惊讶。中国保监会研究》2016;118(4):579 - 85。

    文章PUBMED.公共医学中心中科院谷歌学术搜索

  13. 13.

    machiela mj等。与更长的端粒长度相关的遗传变异与肾细胞癌的风险增加有关。EUR UROL。2017; 72(5):747-54。

    文章PUBMED.中科院谷歌学术搜索

  14. 14.

    等。端粒长度与癌症和非肿瘤性疾病风险之间的关系:孟德尔随机化研究JAMA杂志。2017;3(5):636 - 51。

    文章PUBMED.谷歌学术搜索

  15. 15。

    Hernan Ma,Hernandez-Diaz S,Robins JM。选择偏差的结构方法。流行病学。2004; 15(5):615-25。

    文章PUBMED.谷歌学术搜索

  16. 16。

    关键词:选择偏差,因果关系,统计推理。见:第28届AAAI人工智能会议论文集;2014.r - 425。

  17. 17。

    “孟德尔随机化”:遗传流行病学是否有助于理解疾病的环境决定因素?中华流行病学杂志。2003;32(1):1 - 22。

    文章PUBMED.谷歌学术搜索

  18. 18.

    Holmes MV, Ala-Korpela M, Smith GD。心脏代谢疾病的孟德尔随机化:评估因果关系的挑战。中国科学院院刊。2017;14(10):577-90。

    文章PUBMED.公共医学中心中科院谷歌学术搜索

  19. 19.

    阴性对照:观察性研究中检测混杂和偏倚的工具。流行病学。2010;21(3):383 - 8。

    文章PUBMED.公共医学中心谷歌学术搜索

  20. 20.

    教育厘米。与已知因果效应的一致性是观察性研究的潜在效度衡量标准。临床流行病学杂志。2016;74:4-6。

    文章PUBMED.谷歌学术搜索

  21. 21.

    Petitti DP,Sidney S.绝经后雌激素使用和心脏病。nejm。1986; 315(131-2)。

  22. 22.

    冠状动脉药物项目。这一发现导致了每天2.5毫克雌激素组的停止。冠状动脉药物项目研究小组。《美国医学协会杂志》上。1973年,226(6):652 - 7。

    文章谷歌学术搜索

  23. 23.

    评论:激素替代疗法和冠心病:四个教训。国际流行病学杂志。2004;33(3):461-3。

    文章PUBMED.谷歌学术搜索

  24. 24.

    赤行艇E,珍珠J.因果推断和数据融合问题。Proc Natl Acad Sci USA。2016; 113(27):7345-52。

    文章PUBMED.中科院谷歌学术搜索

  25. 25.

    表2谬误:混杂系数和修正系数的提出和解释。流行病学杂志。2013;177(4):292-8。

    文章PUBMED.公共医学中心谷歌学术搜索

  26. 26.

    吸烟与老年痴呆:一种潜在的选择偏差。流行病学。2008;19(3):448 - 50。

    文章PUBMED.谷歌学术搜索

  27. 27。

    Tobias DK等人。2例入射2型糖尿病成人体重指数和死亡率。n engl J Med。2014; 370(3):233-44。

    文章PUBMED.公共医学中心中科院谷歌学术搜索

下载参考

作者的贡献

CMS和HEJ共同研究了这个想法。CMS起草手稿,HEJ审阅。两位作者都阅读并批准了最终的手稿。

相互竞争的利益

作者声明他们没有竞争利益。

伦理批准

不适用。

出版商的注意

亚搏体育官方电话施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

作者信息

从属关系

作者

相应的作者

对应到c .玛丽学校

权利和权限

开放获取本文根据Creative Commons attection 4.0国际许可的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上无限制地使用、分发和复制,前提是你给予原作者和来源适当的荣誉,提供一个到知识共享许可协议的链接,并指出是否作出了更改。创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条提供的数据,除非另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

教育,下午琼,琼斯,H.E.澄清关于“风险因素”的问题:预测因子与解释。紧急情况的主题论文15,10(2018)。https://doi.org/10.1186/s12982-018-0080-z

下载引用

关键词

  • 风险因素
  • 预测
  • 导致
  • 统计推断
  • 科学推理
  • 混淆
  • 选择性偏差
Baidu