跳过主要内容

布拉德福德·希尔对因果关系的思考:一个反事实的视角

摘要

布拉德福德·希尔(Bradford Hill)在1965年发表的观点,对将观察到的关联的因果解释与非因果解释分开的尝试产生了巨大的影响。这些考虑常常被用作标准清单,尽管希尔本人并不打算这样使用它们。然而,希尔避免明确定义他所谓的“因果效应”。

本文从反事实因果关系的角度对希尔的考虑提供了一个新的观点。我认为,反事实论点强烈地影响了何时应用希尔考虑的问题。然而,一些考虑涉及到更广泛的因果系统中的许多反事实,以及它们的启发式假设lue随着系统复杂性的增加而降低;误用它们的危险可能很高。讨论了这些见解对研究设计和数据分析的影响。评估Hill考虑的适用性的关键分析工具是多偏差建模(贝叶斯方法和蒙特卡罗敏感性分析);应更频繁地使用这些方法。

介绍

奥斯汀·布拉德福德·希尔爵士(1897 - 1991)是医学统计学和流行病学领域杰出的先驱[1-4.].他对题为"环境与疾病:因果关系"讲座的总结[5.对流行病学家和医学研究者产生了巨大的影响。具有讽刺意味的是,这篇论文之所以出名,绝不是出于它的本意[6.7.]:因果标准检查表(例如[8.-10])。

山(5.]提供了评估观察到的关联是否包含因果成分的9个考虑因素。这些考虑受到了他之前其他人的影响[1112].他避免明确定义因果效应的含义,尽管他似乎具有反事实的概念化思维。在本文中,我的核心论点是,反事实论据对何时将希尔的考虑应用到一个特定的因果问题的问题有很大的贡献。这并不是说因果关系的其他概念化不会有助于澄清Hill的考虑,但反事实模型是与许多统计方法直接相关的模型[1314]此外,我将指出,希尔的一些考虑涉及到更广泛的因果系统中的许多反事实,并且这些考虑的启发价值可能很低。

分析

反事实因果关系

山(5.避免用因果效应来准确定义他的意思:

“我不希望,也没有能力对‘因果关系’的意义进行哲学上的讨论,."

然而,他似乎应用了反事实模型,因为他接着写道:

"...决定性的问题是,不良事件B的发生频率是否会受到环境特征a的变化的影响."

反事实因果关系至少可以追溯到18世纪th苏格兰哲学家大卫·休谟[15]但从20世纪80年代开始,它才成为流行病学的标准。作为随机临床试验的发明者[3.4.,希尔受到了排除混淆的随机分组分配思想的强烈影响。由R.A.费雪在20世纪20年代和30年代提出的随机化的想法,反过来又受到休谟的启发[3.].因为Fisher和Hill至少是多年的朋友[3.]今天,因果关系的反事实或潜在结果模型在流行病学中或多或少已成为标准,并且有人认为反事实因果关系涵盖了健康科学中因果关系的大部分方面[1314].

要定义反事实效应,请想象一个个体在固定的时间。我们主要假设

  1. (a)

    这个人可以被分配到我们想要比较的两个暴露水平(X= 0和X分别= 1)和

  2. (b)

    这结果y存在于两种暴露水平下(表示为yi0yi1分别)[[14]和其中的参考文献]。

因果关系X= 1和X在个体内= 0在治疗或暴露时的分配可定义为[13-20.]:

y l y 0.

注意,差异测量的使用并不是唯一的——对于严格积极的结果,我们也可以使用比率测量yi1/yi0.对于二元结果,这个定义意味着结果事件在一个暴露级别下发生,而不在另一个暴露级别下发生。因此,二元事件的因果效应是该事件不发生的必要条件;它不一定是一个充分条件。显然,在至少两种暴露水平下的一种情况下,结果是观察不到的。因此,结果必须在未观察或估计下反事实的状态,称为反事实的潜在的结果。

根据罗斯曼的说法[21],综合因果机制被定义为一系列因素,这些因素是诱导二元成果事件的共同足以,这是最小的;也就是说,在遗漏只是一个因素的结果会改变。罗斯曼[21把它称为充分-组件原因模型.刘易斯的早期论文中也有类似的观点[22].由于几个因果机制在固定时间内与固定个体的同一特定反事实差异一致,因此充分成分因果模型可被视为反事实模型的更精细版本[[14],以及其中的参考文献]。

由于通常没有客观标准来确定个体的反事实结果,最好的选择通常是估计总体的平均影响。群体平均效应被定义为个体对目标群体中所有个体的因果效应的平均值。流行病学中对平均因果效应的估计受到各种偏见的影响[23].这些偏差是由研究设计和产生数据的机制决定的。在随机对照试验(RCT)中,不可能发生混杂引起的偏倚,但混杂物可能在治疗水平上随机分布不均,特别是在小样本中。如果依从性是完美的,在治疗中就没有测量误差。然而,其他偏差可能仍然会发生,例如由于结果中的测量误差和选择偏差造成的偏差(因为随机对照试验中的个体可能不能代表目标人群中的所有个体)。观察性研究容易产生各种偏差,而这些偏差取决于数据背后的因果机制。例如,由于混淆造成的偏差是由影响暴露和结果的因素以及这些因素的分布决定的。

我将证明希尔的大多数考虑不仅仅是X-y联想和偏见;它们的应用取决于对一个综合因果系统的假设,其中X-y效果只是一个组成部分。我认为Hill的考虑因素的启发式价值收敛到零作为因果系统的复杂性以及真正因果系统增加的不确定性。

布拉德福德山的考虑

关于希尔的考虑的讨论如下:首先,我用自己的措辞(斜体)总结各自的考虑。然后简要回顾希尔自己的论点,然后是其他作者的论点(从大量文献中主观选择)。然后,我将展示哪些反事实涉及到一个给定的考虑的应用,以及哪些新颖的见解可以被导出来解释研究设计和数据分析。为了简化讨论,我有时会忽略随机变化。我的一些观点适用于希尔的一些考虑,为了避免冗余,我将偶尔不再重复它们。

1.协会的力量

强烈的关联比适度的关联更可能有因果成分

山(5.]用吸烟暴露水平与肺癌发病率之间的高风险比率说明了这一点。然而,他用两个反例证明,没有强相关性并不排除因果关系。希尔承认,关联强度的印象取决于指数用于关联的大小[5.].

罗斯曼与格陵兰[18为强烈但非因果关系提供了反例。注意,与比率测量不同,差异测量往往很小,除非暴露和结果之间几乎是一对一的关联[24].选择效果衡量标准的根本问题是,“相对风险或任何其他衡量标准都不是一种关联的生物学一致特征……这是研究人群的一个特征,取决于其他原因的相对流行程度。”[[18), p.24]。罗斯曼与普尔[25]描述了如何设计研究以检测弱效果。为罗斯曼和格陵兰[[18考虑强度的好处是,强烈的关联不可能仅仅是由于小的偏见,无论是通过适度的混淆还是其他的偏见来源。

对强度的考虑涉及两个主要的反事实问题,关于可能产生了观察到的关联的偏差(在预先指定的索引方面):与观察到的关联相比,如果数据没有偏差,预期的关联有多强?既能恰当地解释随机误差又能解释系统误差(偏差参数的不确定性,如误分类概率)的区间估计是否能得到期望的结论?(一个理想的结论可能是简单的因果关系的存在,或者至少有一定程度的因果关系,例如风险增加了两倍。)

偏差可以通过多偏差建模来解决。多偏差建模的当代方法包括贝叶斯方法和蒙特卡罗敏感性分析(MCSA),在某些条件下,可以修改为以贝叶斯方式近似解释[27])。这些方法通过分配先验分布来解决偏差参数的不确定性。尽管希尔指出,非随机误差经常被低估,但这些方法在他的时代几乎不可用。通过贝叶斯和MCSA方法,我们可以评估观察到的关联大小是否足够高,以允许得出某种结论。这需要一个偏差模型,包括关于哪种偏差存在、偏差如何共同作用以及应该使用哪些先验的假设。然而,如果一个人使用一个偏见模型来处理已理解的偏见,推断仍然可能被误解或未知的偏见所扭曲。而且,我们可以计算出是哪一个X-y关联和随机误差值将允许得到所需的结论。人们还可能会问,如果应用偏差参数,哪些先验将允许得到期望的结论(“反向贝叶斯分析”),并评估这些先验不是反事实的概率。

显然,偏差参数的高度不确定性比适度不确定性需要更大的关联。在控制了几个偏差来源的研究中,适度的关联可能仍然表明了因果效应,而在更容易出错的设计中,必须考虑更多的偏差和更高的非随机误差。然而,如果关于偏差的知识也是有限的,那么指定偏差模型可能是一项困难的任务。这种不确定性会延续到对力量的考虑。尽管如此,似乎没有替代多重偏差模型时,评估关联的大小是所需的结论。

2.一致性

反复观察到关系

对于希尔[5.,反复观察一个关联包括“不同的人、不同的地点、不同的环境和不同的时间”。这一规则的好处是,不断发现不同研究设计的相关性(例如,在回顾性和前瞻性研究中),降低了同一研究设计中由于“持续错误或谬误”而导致相关性的可能性。另一方面,他指出,不同研究的共同缺陷往往会重复相同的错误结论。同样,不同调查的不同结果可能表明,一些研究正确地显示了因果关系,而另一些则未能识别它。

罗斯曼和格陵兰对此作出了解释[[18:因果因素可能要求存在另一种情况;例如,输血只有在人体免疫缺陷病毒存在的情况下才会导致感染。现在,根据充分成分原因模型[20.21],如罗斯曼和格陵兰所述[[18因果效应是否存在以及在何种程度上平均取决于互补的因果因素的流行程度。

考克斯和韦姆斯[28[,第225页]增加了这样一种考虑,即内在变量的值之间没有强烈变化的关联更有可能是因果关系。如果具有不同不可变属性(如性别和出生日期)的个体之间的关联是相似的,那么这种关联更有可能有一个稳定的实质性解释。以外的变量Xy在综合因果系统的其他因素中,可能因干预而改变。在应用这一准则时应谨慎;效应异质性取决于效应测度的选择。这一选择应基于相关的实质性理论以及与反事实和充分成分原因模型的对应关系(后两者表明应使用差异而不是比率);然而,两者都可能相互矛盾[29].

从反事实的角度来看,当问及是否考虑一致性时,会出现以下问题:

  1. 一)

    如果所有研究中的因果效应都是一样的,那么人们会期望在不同的研究(可能涉及不同的人、地点、环境和时间)中观察到不同的关联吗?预期这些关联会有多大程度的不同?

  2. b)

    如果因果效应在不同的研究中有所不同,人们会期望观察到相同的或不同的关联吗?人们预计会有多大的差异?

注意,在效果修饰语存在的情况下,不存在“因果效应”这种东西,效果修饰语需要固定在合适的值。还要注意,只有a)或b)实际上是反事实的,这取决于在不同的研究中效果是否真的不同。回答这些问题需要一个全面的因果理论,指出不同的实体(个体因素、环境、时间等)是如何共同作用的y.在这样一个因果系统中,我们可以预测X-y如果在不同的研究中使用了不同的人、地点、环境和时间,那么联系应该改变。因为人们只能观察到关联,这也涉及到偏见,而偏见在不同的研究中可能会有不同的作用。

在不同研究中观察到的与预期模式一致的关联模式将为X在…上y如果潜在的因果理论适用。另一种模式是没有影响X在…上y或者假设的理论是假的。在复杂的情况和偏见的设计中,概率可能很大,即因果理论不包括改变预期的重要功能X-y协会。在这里,关于是否要求一个关联(或关联的大小)的不确定性可能很高,因此一致性的考虑可能带来更多的伤害而不是好处。

3.特异性

一个因素特别影响一个特定的结果或群体

对于希尔[5.,如果一个人观察到一个特定的结果或一组个体之间的关联,这就是因果效应的有力论据。在缺乏专一性的情况下,希尔暗指在应用这一规则来得出因果关系缺失的结论时存在谬误:疾病可能有不止一个原因(希尔认为这是主要情况)。反过来,一个因素可能导致多种疾病。根据希尔的说法,这条规则的价值在于它与一种关联的强度相结合:例如,在吸烟者中,与其他死因的死亡风险相比,肺癌的死亡风险应该提高到更高的程度。希尔对个体特殊性的考虑显然与他对一致性的考虑相矛盾,在一致性上,反复观察不同人群之间的关联会增加因果关系的证据。

罗斯曼与格陵兰[18他们认为,当应用这一规则时,人们假设一个原因只有一个结果。这种假设通常是没有意义的;例如,吸烟对几种疾病都有影响。他们认为对细节的要求是“无用和误导的”。考克斯和韦姆斯[28],p.226f.]指出,这条规则适用于相当具体的过程起作用的系统,而不是涉及的变量代表许多特征的集合的系统。Weiss[30.]提到了一种情况,在这种情况下,要求对某一结果具有特异性是有意义的:一种理论可以预测暴露会影响某一结果,但不会影响其他特定结果。他举了一个例子来说明这一点:戴头盔应该特别防止头部受伤,而不是防止身体其他部位受伤。他认为,如果戴头盔也能防止其他伤害,那么这可能表明,更谨慎的骑手倾向于使用头盔,从而混淆了这种关联。他为暴露的特异性和理论预测影响的个体的特异性提供了类似的论据。

反事实因果关系和逻辑等价因果图[1930.,概括了维斯的论点[30.],并解决与其他暴露和结果有关的特异性问题:所考虑的结果以外的结果(y)必须与接触有关(X),如果他们是因果链的一部分Xy或者是…的因果结果y.否则,它们必须不关联X.在上述例子中,其他损伤既不是戴头盔与头部损伤之间的因果链的一部分,也不是头部损伤的因果后果;如果戴头盔与头部和其他损伤都有关,那么戴头盔与头部损伤之间的关联可能有共同的谨慎原因。同样地,除了X必须与y如果它们属于因果链Xy.之前发生的风险敞口Xy或者没有提供关于因果关系的信息Xy

当应用这种考虑时,整个因果系统中的每个关联都需要一个偏差模型,包括对关联中尽可能多的反事实差异的评估。关于某一特定效应存在的一个错误结论仍然可能产生一个与理论相矛盾的图,因此,关于该效应存在的一个错误结论X-y效应。随机对照试验只允许同时随机选择少量因素,而这些因素是否相互关联只是如何随机选择的问题。因此,随机对照试验中与其他因素相关的特异性评估是有限的。队列研究在这里更有用,但存在混淆和测量误差总之,只有当因果系统简单且对其了解基本确定时,考虑特异性才显得有用。

4.世事

这个因素必须先于它所影响的结果

山(5.]与谚语“介绍了这一谚语”这是马车,这是马?“例如,他询问特定饮食是否引发了某种疾病或疾病是否导致随后改变饮食习性。根据山,如果难以测量的疾病,难以测量疾病,难以确定疾病的时间方向可能难以确定。

考虑个人X发生之前y,逻辑上是不可能的X如果是改变了y改变了,因为X是在y(或不发生)。因此,y不能造成X在这些个人。事实上,这是反事实效应在单个个体中的唯一必要条件标准[[7.],第27页,第11页]——希尔忽略了这一点。请注意,没有逻辑上的联系表明y发生之前X.其中,y可能是,也可能不是X[[7.), 25页)。

当跨多个个体聚合信息时,在应用此标准时会出现更大的混乱。一些研究人员认为,只在一个方向观察到的关联比在两个方向观察到的关联更有可能是因果关系。如果出现某种疾病(X)与其他疾病较高的继发发病率(y),如果事先y也预示着随后发生X例如,焦虑在抑郁症发展中的作用已经被讨论过[31].

然而,应用这个论点需要一个因果系统,它不会产生任何结果y-X关联。这需要充分了解共同的风险因素Xy.评估时间顺序Xy,纵向设计比时间方向介于两者之间的设计更好Xy必须进行回顾性评估。在rct中,可以无误差地建立时间方向。

5.生物梯度

结果随着暴露剂量的增加或根据实质性理论预测的函数单调增加

山(5.倾向于暴露水平和结果之间的线性关系,例如,每天吸烟的数量和癌症死亡率之间的线性关系。如果剂量-反应关系的形状是一个更复杂的,特别是一个非单调的函数,这将需要一个更复杂的实质性解释。

另一些对剂量-反应关系的定义要求较低,但更具体,只要求一种特定形状的关系(不一定是线性或单调的),这是从实质性理论预测的[[28], p . 225]。罗斯曼与格陵兰[18[,第26页]认为,部分j型剂量-响应曲线可能是由各自的暴露水平造成的,而其他可能只是由于混淆。他们还提供了一个非因果剂量反应关联的反例。如果这种假设与实质性知识相矛盾,要求剂量-反应关系可能会误导人。例如,在哮喘患者吸入糖皮质激素的摄入量和肺功能之间,没有发现推测的因果效应的剂量-反应关系[33]或者在精神疾病的药物治疗中[34]。Lanes和Poole之前提供了更多的例子和类似的论点[35].

反事实因果关系将每对暴露水平之间的差异定义为不同的因果效应。因此,对生物梯度的考虑再次不是对特定因果差异的考虑,而是对涉及几个暴露水平的更广泛的因果系统的考虑。它需要一个实质性的理论来预测当暴露在不同的水平上时,结果应该如何变化。如果有k暴露水平,那么这个理论必须预测k - 1反事实的差异。一些理论要求在层次上有一个梯度,而另一些则没有,而不同的理论可能要求不同的梯度。

当应用这种考虑时,偏见必须为每个k - 1观察到的关联。如果在暴露水平上观察到的关联序列与理论一致,并且每次比较都正确处理了偏差,这为理论提供了证据;否则,该理论或至少一个偏差模型是错误的。在这里,特定暴露水平之间的因果差异在任何情况下都可能存在。

建立剂量响应关系需要几种曝光率。另一方面,越来越多的曝光率,较高的危险是错误应用这一考虑的危险,因为单一的错误结论(其中)k - 1关于存在特定因果差异的可能错误结论)可能足以在整体理论上得出错误结论。随机对照试验对于评估剂量-反应关系特别有用,因为它们避免了使用其他研究设计时有时难以纠正的一些偏差。

6.合理性

观察到的关联可以用实质性的物质(例如生物学)解释

对于希尔[5.,生物学解释的存在支持了因果结论的得出。另一方面,如果没有这样一种理论,“我们观察到的这种联系对科学或医学来说可能是一种新现象,我们不应轻率地认为它太奇怪而不予理会”[5.].

考克斯和韦姆斯[28[,第226页]增加了一个极其重要的观点,即预测未来的关系比回顾提供的关系更有说服力;在观察到一种关联之后,通常很容易给出一个看似合理的解释。根据罗斯曼和格陵兰[[18[,第26页],可信性的评估受制于个人研究人员的先验信念。这些先验信念的权重可以与贝叶斯推断中观察到的关联的权重相平衡。然而,贝叶斯分析并不能“将合理性转化为因果标准”。

基于这些作者的论点,研究人员应该问自己两个相关的反事实问题;它们与可信性有关,尽管它们本身不足以阐明这一考虑:

  1. 一)

    如果观察到的关联符合实质性知识,如果你的观察结果不符合实质性知识,你会给它分配一个较低的权重(相对于实质性知识的权重)吗?

  2. b)

    如果观察到的关联与实质性知识不一致,如果你的观察与实质性知识一致,你会给它分配一个更高的权重(相对于实质性知识的权重)吗?

只有当研究人员能够(分别)诚实地回答a)或b)“是”时,人们才能假定这种考虑的应用并不依赖于研究结果。很明显,一个人甚至不能百分之百地确信一个答案是真实地反映了他自己的想法。采用这种考虑的危险是双重的:研究人员可能会给实质性知识分配更高的权重,如果它与他们自己先前的观点一致,否则可能会分配较低的权重。实质性的知识可能是不一致的,而冲突的信息可以根据某人对信息准确性的评估进行加权。同样,科学家可能会根据是否符合他们先前的观点来选择他们所应用的实质性知识。问题仍然是如何权衡先前的意见相对于观察的结果。这涉及到许多设计问题,例如当前数据和其他数据中的样本量,以及偏差如何在不同研究中产生和处理的问题。

7.一致性

一个因果结论不应该从根本上与现有的实质性知识相矛盾

山(5.]使用“一般已知事实”一词来表示评估某一协会所依据的知识必须是无可争议的。符合关联的实验室证据将强调因果结论,并有助于识别因果动因。同样,这种知识的缺失并不意味着非因果解释。

希尔对可信性和连贯性的定义的差异似乎是微妙的[[7.), 25页)。虽然“似是而非”是用积极的词汇(与实质性知识相一致的联想),但“连贯”是用消极的词汇(与实质性知识不冲突的联想)。罗斯曼与格陵兰[7.],第25页]引起了人们的注意,这种相互冲突的知识本身可能是错误的[11]通过根据知识的来源定义连贯性的不同子类,试图保留这种考虑。

相干性和合理性之间的微妙差异是符号性要求:“你能想象一个机制,如果它真正经营(这可能是反事实),那么将产生诸如在数据中观察到的结果的结果?”相比之下,一致性问:“如果你认为建立的理论是正确的(即不是反事实),则观察结果会适应该理论吗?”鉴于相干性的考虑将拒绝观察到的结果是非因果的,如果它相矛盾的理论,合理性让研究人员更具关于评估结果的特别知识的更多空间。

8.实验

如果证据是基于随机实验,则导致更有可能

山(5.]认为,如果从一项非实验性研究中得出的一项随机预防证实了该发现,那么对该关联的因果解释就得到了支持。例如,在发现某些事件与吸烟人数有关后,人们可能会禁止吸烟,以观察这些事件的频率是否连续下降。

致罗斯曼及格陵兰[7.目前还不清楚希尔所说的证据是来自动物实验还是人体实验。流行病学方面的人体实验很少,动物实验的结果也不容易应用于人类。萨瑟(11Hill的示例建议他意味着干预和主动变化而不是研究设计。两个susser [11]还有罗斯曼和格陵兰[[7.指出,与基于其他研究设计的结果相比,随机实验的结果提供了更有力的证据,但总是有几种可能的解释。考克斯和韦姆斯[28], p . 225 f。[]放宽了这一标准,用“干预强度”这一相当定量的概念取代了实验研究和非实验研究之间的质量差异:如果一个观测到的差异是在大规模干预之后产生的,那么它更有可能是因果关系。这是由于一种可能性,即适度干预后的变化可能是由治疗的环境而不是治疗本身引起的。有人可能会补充说,Cox和Wermuth的考虑需要适度的干预,以避免产生强大的影响——这一假设肯定在很大程度上取决于环境。

在反事实因果关系方面,大规模干预和适度干预之间的区别是无关紧要的,因为因果效应只针对固定指标和固定参考条件定义。因此,如果从干预强度的角度来解释,这又不是对特定因果差异的考虑,而是考虑。一个全面的因果理论(如生物梯度理论)的基础。为了决定什么是适度干预,什么是强力干预,需要这样一个理论。

如果对实验的考虑被解释为通过进行随机对照试验来避免估计特定因果效应时的某些偏差,则应概括如下:观察到的关联应尽可能接近真实的反事实差异(尽管存在随机误差)。通过使用避免重大偏差的研究设计或通过正确纠正偏差来减少偏差。显然,避免偏差比纠正偏差更可取,但避免某些偏差通常是不可能的。如前所述,在完全符合性的随机对照试验中,不会发生混淆(尽管混杂因素可能偶然分布不均匀)并且在暴露中没有测量误差。但是,由于测量误差导致的偏差仍然可能出现在结果中,并且可能由于选择、缺失数据等导致偏差[22].因此,希尔的原始公式[5.在各种可能的偏见中,只涵盖了一两个。

相反,出现了两个更普遍的问题:哪种研究设计可能有效地识别假定的因果效应?而且,如果不可能有最佳的研究设计,那么如何准确地纠正偏差呢?就像对强度的考虑一样,这可以总结为:如果数据没有任何偏差,预期会观察到哪些结果?在偏差调整后,如果区间估计排除了空值,则更有可能产生因果关系,如果下界离空值很远,则更有可能产生因果关系。如果调整得当,修正后的区间估计中的系统误差会随着对偏差认识的增加而减小。因此,如果人们对偏差理解不足,就很难证明因果关系——即使在大样本中也是如此,因为即使在随机误差减少的情况下,结果中的相关系统误差仍然存在。

9.类比

对于类似的暴露和结果,已经显示出了这种效果

山(5.]他写道,“通过类比来判断”有时是可以接受的。他举了以下例子:

“随着噻amoide和风疹的影响,我们肯定会准备好接受较弱但在怀孕中的另一种药物或其他病毒疾病."

萨瑟(11把希尔解释为“当已知一类因果因子产生了效果,那么另一类因子产生类似效果的证据标准就可以降低。”罗斯曼与格陵兰[18反驳道:

“无论从类比中获得什么样的洞察力,都会受到科学家创造性想象力的阻碍,因为科学家们到处都能找到类比。类比充其量只是提供了一个关于研究中的关联的更为详尽的假设来源;缺少此类类比只反映出缺乏想象力或缺乏证据."

当应用类比的考虑时,科学家们应该问自己:如果你使用类似于其他研究的设置,你会期待同样的关联吗?(同时考虑到偏见,这可能在不同的研究中有所不同)?“类似”一词是指外部研究中的实体仅与观测数据中的实体相似(但不完全相同)。这需要在不同的研究中使用类似但不相同的实体的反事实效应的额外建模。这使得类比考虑的应用比可信性和连贯性考虑的应用更加不确定。

结论

希尔自己使用术语“视点”和“要考虑的特性”来评估一个关联。他的目的是解开这个问题:“在决定最可能的解释是因果关系之前,我们应该特别考虑这种关联的哪些方面?”[5.他对自己的考虑是否有用表示了矛盾的态度,如下所示:

我的九种观点中,没有一种能够为因果假设提供无可争辩的证据……”

罗斯曼和格陵兰岛的结论[36表明在流行病学中根本没有因果标准:

“流行病学中的因果推理更应该被视为一种测量效果的练习,而不是判断一个效果是否存在的标准指导过程."

Hill考虑的反事实近似的有用性在于,它们的启发式价值可以通过回答反事实问题来评估。我认为,九种考虑中的七种(一致性、特异性、时间性、生物梯度、合理性、连贯性和类比)的应用涉及到全面的因果理论。复杂的因果系统包含许多关于偏见的反事实和假设。如果复杂性变得非常大,关于是否应用给定考虑的不确定性可能会接近抛硬币的决策。因此,随着复杂性的增加,Hill考虑的启发式价值就会减少。

在这里,山的原始论点[5.]变得特别重要:因果效应所需的证据应取决于来自因果结论的干预措施的可能后果。如果因果结论需要一个在正确采取的情况下造成更多伤害的行动,如果正确采取的是,如果正确采取的措施,则需要相应大量的证据。如果有益与危害之间的关系是相反的,那么较少的证据是必要的。评估这些考虑因素适用性的主要工具是多个偏置建模。应该更频繁地使用多个偏差模型。此外,关于应用这些考虑之一的决定始终基于一个或多个多个偏置模型来毫无地隐含。例如,要求至少一定幅度的关联在逻辑上等同于“真正偏置模型”是多个偏置模型的一部分的一部分,其中偏置参数上的前叉需要至少观察到要关联的关联至少这种幅度。

有人可能会问一个与事实相反的问题:如果希尔能更明确地建议何时应用他的每一项考虑,流行病学和医学研究将如何发展?我远没有声称能够回答这个问题,但我认为我的猜测值得一提。他们在题为《奥斯汀·布拉德福德·希尔爵士错过的教训》的论文中[6.]菲利普斯和古德曼审查了由山的山丘谴责的医疗事故仍在实践中仍在进行:过度强调统计测试,被估计的估计和成本/益处权衡在干预决策中被估计的系统错误。Hill的考虑因素被滥用为“因果标准”,并且他们比更多的声音因果概念更频繁地教授[6.].没有理由相信,关于何时应用他的考虑的更明确的建议会得到更好的注意;希尔实际上提出的警告在很大程度上被忽视了。

我自己的经验是,如果科学建议提供简单的指导,就会被广泛遵循;要求采取复杂行动的建议常常被忽视。我的猜测是,这是由于许多研究人员渴望简单和全球适用的答案。这种欲望导致了对科学文本的误解,并脱离了它们的上下文。更悲观地说,遵循哪一种指导方针的问题取决于哪一种指导方针与期望的答案相一致。因此,即使希尔的论文没有发表,科学家们对简单答案的渴望也可能导致另一篇论文的出现,或者像希尔的论文那样被误解。5.]文章。

缩写

MCSA:

蒙特卡罗灵敏度分析

个随机对照试验:

随机对照试验

参考文献

  1. 1.

    阿米蒂奇P:布拉德福德·希尔:医学统计的一些趋势。J Roy Stat Soc A。1995, 158: 143-153.

    文章谷歌学者

  2. 2.

    娃娃R:奥斯汀布拉德福德山爵士:对他对流行病学贡献的个人观点。J Roy Stat Soc A。1995, 158: 155-163.

    文章谷歌学者

  3. 3.

    阿米蒂奇P:Fisher, Bradford Hill,和随机。Int增加。2003年,32:925 - 928。10.1093 / ije / dyg286

    文章PubMed谷歌学者

  4. 4.

    Chalmers I:费舍尔和布拉德福德希尔:理论和实用主义?。Int增加。2003年,32:922 - 924。10.1093 / ije / dyg295

    文章PubMed谷歌学者

  5. 5.

    希尔AB:环境与疾病:关联还是因果关系?继续罗伊Soc医学-伦敦。1965年,58:295 - 300。

    中科院谷歌学者

  6. 6.

    菲利普斯简历,古德曼KJ:奥斯汀·布拉德福德·希尔爵士错过的课程。Epidemiol透视与创新。1965, 1: 3-10.1186/1742-5573-1-3. 10.1186/1742-5573-1-3

    文章谷歌学者

  7. 7.

    Goodman KJ, Phillips希尔因果关系标准。行为科学统计百科全书。伦敦:威利;2005年

    谷歌学者

  8. 8.

    Hussain SP, Harris CC:人类癌症的分子流行病学。毒理学利特。1998年,103:219 - 225。10.1016 / s0378 - 4274(98) 00310 - 5。10.1016 / s0378 - 4274 (98) 00310 - 5

    文章谷歌学者

  9. 9.

    斯皮策我们:偏见与因果关系:解释近期口服避孕药研究的证据。我是妇产科医生。1998、179:S43-S50。10.1053 / ob.1998.v179.a93059

    中科院文章PubMed谷歌学者

  10. 10

    Naschitz JE, Kovaleva J, Shaviv N, Rennert G, Yeshurun D:血管病在癌症诊断之前:根据布拉德福德-希尔指南区分因果关系。血管学。2003, 54: 11-17.

    文章PubMed谷歌学者

  11. 11

    萨瑟M:什么是原因?我们如何知道原因?实用主义流行病学语法。阿米尔-增加。1991, 7: 635-648.

    谷歌学者

  12. 12

    莫拉比亚A:关于希尔因果标准的起源。论文。1991, 5: 367-369.

    文章谷歌学者

  13. 13.

    Little RJA, Rubin DB:通过潜在结果在临床和流行病学研究中的因果效应:概念和分析方法。公共卫生年度报告2000年,21日:121 - 145。10.1146 / annurev.publhealth.21.1.121

    中科院文章PubMed谷歌学者

  14. 14.

    HöflerM:基于反事实的因果推理。BMC医学研究方法。2005年,5:18。10.1186 / 1471-2288-5-28

    文章谷歌学者

  15. 15.

    荷兰PW:统计和因果推理。J Amer Stat Ass。1986, 81: 945-962.

    文章谷歌学者

  16. 16.

    鲁宾DB:在随机和非随机研究中估计治疗的因果效应。J教育心理学。1974,66:688-701。

    文章谷歌学者

  17. 17.

    Rosenbaum PR, Rubin DB:在因果推理的观察性研究中,倾向评分的中心作用。生物统计学。1983, 70: 41-55.

    文章谷歌学者

  18. 18.

    格陵兰南部罗斯曼·KJ编辑部:现代流行病学。第二版费城:Lippincott Williams & Wilkins;1998.

    谷歌学者

  19. 19.

    珍珠珍:因果关系-模型,推理和推理。剑桥:剑桥大学出版社;2002.

    谷歌学者

  20. 20

    格陵兰岛的马尔多纳多G:估计因果效应。Int增加。2002年,31日:422 - 429。10.1093 / ije / 31.2.422

    文章PubMed谷歌学者

  21. 21

    Rothman KJ:原因。阿米尔-增加。1976年,104:587 - 592。

    中科院谷歌学者

  22. 22

    刘易斯D:因果关系。哲学杂志》上。1973年,70:556 - 567。

    谷歌学者

  23. 23

    Maclure M, Schneeweiβ S:偏见的原因:阴道镜。流行病学2001年,12:114 - 122。10.1097 / 00001648-200101000-00019

    中科院文章PubMed谷歌学者

  24. 24

    Kraemer HC、Kazdin AE、Offord DE、Kessler RC、Jensen PS、Kupfer DJ:衡量临床或政策重要性的危险因素的效力。Psychol冰毒。1999年,4:257 - 271。10.1037 / 1082 - 989 x.4.3.257。10.1037 / 1082 - 989 x.4.3.257

    文章谷歌学者

  25. 25.

    Rothman KJ,Poole C:加强薄弱协会计划。Int增加。1988年,17:955 - 959。

    中科院文章PubMed谷歌学者

  26. 26.

    Rosenbaum公关:观察性研究。第二版。纽约:施普林格;2002.

    谷歌学者

  27. 27.

    格陵兰岛史:观测数据分析的多偏倚模型。J Roy Stat Soc。2005年,168:267 - 291。10.1111 / j.1467 - 985 x.2004.00349.x。10.1111 / j.1467 - 985 x.2004.00349.x

    文章谷歌学者

  28. 28.

    考克斯博士,韦尔默斯N:多变量的依赖关系。模型、分析和解释。伦敦:查普曼和大厅;1996年。

    谷歌学者

  29. 29.

    格陵兰岛史:互动评估的基本问题。Envir健康教谕。1993年,101:59 - 66。

    文章谷歌学者

  30. 30.

    维斯N:关联的“特异性”能否作为支持cuasal假设的基础得到恢复?。流行病学2002,13:6-8。10.1097 / 00001648-200201000-00003

    文章PubMed谷歌学者

  31. 31.

    格陵兰岛,Pearl J, Robins JM:流行病学研究的因果图。流行病学1999年,10:37-48。10.1097 / 00001648-199901000-00005

    中科院文章PubMed谷歌学者

  32. 32

    Mineka S, Watson D, Clark LA:焦虑与单极情绪障碍的共体。心理学年鉴。1998年,49:377 - 412。10.1146 / annurev.psych.49.1.377

    中科院文章PubMed谷歌学者

  33. 33

    O'Sullivan S,Cormican L,Murphy M,Poulter LW,Conor MB:不同剂量丙酸氟托卡松对轻中度哮喘患者生理和支气管壁免疫病理的影响胸部。2002,122:1966-1972。10.1378 / chess.122.6.1966

    文章PubMed谷歌学者

  34. 34

    Melmon KL, Morelli HF, Hoffman BB, Niederenberg DW, Eds:临床药理学:治疗学的基本原理。纽约:麦格劳·希尔;1992年。

    谷歌学者

  35. 35

    泳道SF,普尔C:“包装中的真相”打开流行病学研究的包装。j占领军医。1984年,8:571 - 574。

    文章谷歌学者

  36. 36

    Rothman KJ,格陵兰S:流行病学的因果关系和因果推断。公共卫生杂志。2005,95:S144-150.10.2105/AJPH.2004.059204.10.2105/AJPH.2004.059204

    文章谷歌学者

下载参考

确认

我要感谢Evelyn Alvarenga的语言编辑工作。

作者信息

隶属关系

作者

通讯作者

通信迈克尔·霍夫勒

额外的信息

利益争夺

作者声明他们没有相互竞争的利益。

权利和权限

开放存取本文由BioMed Central Ltd授权发表。这是一篇开放获取的文章,是根据知识共享署名许可协议(https://creativecommons.org/licenses/by/2.0),允许在任何媒介上无限制地使用、分发和复制,但必须正确引用原作。

再版和权限

关于这篇文章

引用这篇文章

Höfler,M.《布拉德福德-希尔关于因果关系的思考:一个反事实的视角》。紧急情况的主题论文2.11 (2005). https://doi.org/10.1186/1742-7622-2-11

下载引文

关键字

  • 因果效应
  • 暴露水平
  • 因果结论
  • 偏压参数
  • 实质性的理论
Baidu