跳到主要内容

《大炮与麻雀II》:在数据荟萃分析中确定统计显著性和效应大小的增强伯努利精确方法k2 × 2表

摘要

背景

在过去40年里,使用荟萃分析来汇总多个研究的结果的情况急剧增加。对于同质meta分析,通常使用Mantel-Haenszel技术。在这种荟萃分析中,各有贡献的荟萃分析的效应大小仅因统计误差而不同。如果不能假设或建立同质性,迄今为止最流行的技术是反方差DerSimonian and Laird (DL)技术(DerSimonian and Laird, in Control clintrials 7(3):177 - 888, 1986)。然而,这两种技术都是基于大样本的渐进假设。在最好的情况下,它们是近似的,特别是当在相应列联表的任何单元中观察到的情况的数量很小的时候。

结果

本研究开发了一种准确的非参数检验来评估统计显著性,以及在meta分析中估计效应大小的相关方法k2 × 2表的任何水平的异质性,作为一种替代渐进技术。蒙特卡罗模拟表明,即使对于大的异质性值,增强伯努利技术(EBT)在维持预先指定的I型误差水平上远远优于DL技术。作者可以免费提供R统计语言中经过充分测试的实现。此外,还开发了另一个相关的精确测试,用于估计效果大小,并且可以免费获得。

结论

这项研究开发了两个精确的测试,用于对二元分类数据进行荟萃分析。EBT技术在维持预先规定的I型错误水平方面,甚至在非常高的异质性水平上,也明显优于DL技术。如图所示,DL技术演示了许多严重违反此级别的行为。考虑到目前流行于流行病学中的对发现统计意义的各种偏见,强烈关注保持预先规定的I型错误水平似乎至关重要。此外,还开发了一种估算效应大小的相关精确方法。

“很少有经验足以表明,传统的统计过程机制完全不适合实际研究的需要。不仅要用大炮来射麻雀,而且还会射偏麻雀。建立在无限大样本理论基础上的精细机理对于简单的实验室数据是不够精确的。(r.a.费希尔,1925)

背景

流行病学研究中的Meta分析的使用以非常迅速的速度增加。对国家医学的在线数据库(“PUB MED”)的审查表明,1977年只有一个研究文章,其标题中的“META分析”一词。1991年,2005年966年的这个数字增加到138人和2019年的17,205(见图。1).

图1
图1

在出版年份中含有“Meta-Analysis”的物品数量

这种增长的部分原因可能是强大的个人电脑软件的广泛使用使得元分析技术更容易实现。更重要的是,需要从一些小的研究中得出有意义的结论,这可能有助于解释这种指数增长。

当有贡献的研究不是随机对照试验(RCT)时,元分析技术的使用是有争议的。许多研究人员认为,试图把一系列不同的研究结合起来是非常误导人的[1[其他人是否认为,通过适当的保障,Meta分析允许极其有用的较小研究汇集[23.].关于元分析的适当性的讨论超出了本文的范围。相反,这里的重点将是在测试综合分析的总体统计意义和估计效果大小时,尽量减少不必要的错误。

2 × 2 × k分类meta分析概述

“2×2×k”分类荟萃分析范式可能是Meta分析中最常遇到的情况。它包括一系列k每个研究都用2 × 2列联表描述。每个2 × 2表格的每个单元格包含行变量和列变量的特定组合中某一事件(如疾病病例)的出现次数。为说明起见,我们可以将每个表的两列与“疾病表现”与“无疾病表现”关联,并将两行与“暴露”与“无暴露”关联。表格1表示其中一个的结果k研究。

表1典型贡献研究(其中之一k)在二分法的荟萃分析中

在大多数荟萃分析中,通常有两个不同的组成部分:(1)对暴露组和无暴露组之间的总体差异进行统计检验k研究的贡献;(2)将观察到的组间差异汇集在一起的方法k研究,以估计真正的差异(效应量)。

令人惊讶的是,近年来,许多使用元分析技术的流行病学家大大弱化了第一个因素。伯伦斯坦等2结论:

“然而,荟萃分析也让我们超越了统计学意义的问题,并解决了更有趣、更相关的问题。”(页11 - 12)。

类似地,希金斯等人3.]相当轻蔑地说:

“如果综述作者决定用荟萃分析的结果来呈现一个p值,他们应该报告一个精确的p值,以及95%置信区间”(第371-372页)。

我们开发了一种方法,将第一类错误(“误报率”)保持在期望的水平,但该方法具有良好的能力,可以在事件概率、贡献研究的数量、样本量和异质性水平的大范围内检测真正的差异。可以认为,在预先指定的水平上保持Type I错误比检测条件之间真正差异的功率(1-Type II错误率)更重要。现代统计检验的制定者把这种错误称为“第一类错误”,并特别强调它们。Neyman和Pearson在1933年说:

“一种新的基础已经被引入,用于在可用的标准中选择检验任何给定的统计假设,H0,关于替代性ht如果ϴ1和ϴ2有两种可能的标准,如果使用它们,则有相同的机会ε拒绝H0事实上,我们应该选择其中一个,以确保接受H的最小可能性0当真假设是H时t”。(4](第336页)。

因此,虽然奈曼和Pearson支持努力选择产生最大权力以检测到真实差异的标准,但这种努力是维持I型错误的预先指定水平的次要。开发了第二种精确方法以估计任何统计上显着的发现的效果大小。

“罕见”事件与荟萃分析

疾病发生的概率通常被归类为“罕见”,尽管没有具体的定义说明“没有单一的风险将事件被归类为”罕见“,但在1000中的100或1中给出了例子1(见[5], p . 520)。一个明显的相关问题是在列联表的一个或多个单元格中观察到零情况。表格2显示了疾病概率和贡献研究样本量的各种现实组合的预期细胞大小。

表2预期疾病病例的次数作为疾病概率和个人研究样本尺寸(每只臂)

表格2支持“罕见”事件是许多流行病学研究的焦点的观点。

对于同质荟萃分析(即,在统计变异范围内,跨研究的影响可能被假定为相同),分类数据通常使用的两种技术是Mantel–Haenszel和Peto技术。这两种技术都依赖于Mantel–Haenszel卡方检验总体统计显著性。对于异质荟萃分析,通常使用渐近DerSimonian–Laird(DL)逆方差技术[6].

将大样本渐近技术应用于涉及少数案例的荟萃分析的问题,将在更古老和更发达的同质荟萃分析领域得到说明。Mantel开发了可能是同类meta分析中最广泛使用的技术[7].在应用他的技术时,他表明,在每个2 × 2表格的每个4个单元中,每个单元至少需要大约5个案例k包含元分析的研究[8].这和通常使用的启发式要求是一样的,对于简单的卡方检验没有任何特别的理由。Mantel和Fleiss在所有牢房中都没有出现合理数量的病例时回顾了这些选项:

“研究者可以从更多的表格中获得数据,使M-H的使用更加渐进[注:这是Mantel-Haenszel技术],或者他们可以很容易地应用一个更精确的程序来处理手头的数据”(第134页)。

R. A. Fisher在1925年在他众所周知的第一版的序言中基本上与1925年相同的辩护研究人员的统计方法9]:

“很少有经验足以表明,传统的统计过程机制完全不适合实际研究的需要。不仅要用大炮来射麻雀,而且还会射偏麻雀。建立在无限大样本理论基础上的精细机理对于简单的实验室数据是不够精确的。只有系统地解决小样本问题的优点,似乎才有可能对实际数据进行精确测试。”

这两种批评都建议使用精确的方法来处理潜在列联表的稀疏性,至少对于表中包含的疾病示例2.除表中所示的个体研究样本量和疾病概率的两种组合外,其余均为2在Mantel-Haenszel (MH) x平方分布测试中,每个单元将产生少于5个案例,从而导致违反最小单元大小,因此该测试可能存在缺陷。另外,这两个案例的样本量分别为500和1000,可能并不代表很多现实的研究。Mantel和其他人都知道MH x平方分布检验的局限性(例如,[8]),在对2 × 2 × k分类数据进行meta分析时,似乎普遍被遗忘了。在不适合使用渐近检验的情况下继续使用渐近检验是不可接受的,因为现在所有的研究人员都可以使用计算机的能力。

meta分析中的异质性与同质性

术语“异质性”是指在不同时间和不同研究人员在不同的研究中进行的事实可能预期产生不同的结果。期望是,利益的变量可以至少部分地依赖于一个或多个其他变量。The meta-analysis researcher, J. P. T. Higgins stated “As Heterogeneity is to be expected in a meta-analysis: it would be surprising if multiple studies, performed by different teams in different places with different methods, all ended up estimating the same underlying parameter.” ([10], p . 158)。虽然研究人员可能同意异质性是意料之中的,但对于如何量化这种可变性却没有多少共识。最明显的候选者是τ2,各研究之间估计的可变性。然而,τ2在整个研究设计中不是不变的,其解释可能不是直观的\(i ^ {2} \),研究间变异性与总变异性之比统计,它与数学相关\(i ^ {2} \)(见,例如,11])。

在本文中,不均一性将通过τ进行数学运算2使用Bhaumik等人开发的logit分布[12]。即:

$ $间{Ci} \ sim B \离开({p_ {Ci,} n_ {Ci}} \右),间{Ei} \ sim B \离开({p_ {Ei,} n_ {Ei}} \右),$ $
(1)
$ $ \ log \离开({p_ {Ci}} \右)= \μ+ \ varepsilon_{1},日志它\ \ ({p_ {Ei}} \右)= \μ+ \θ+ \ varepsilon_ {1} + \ varepsilon_我{2}$ $
(2)
我$ $ \ varepsilon_ {1} \ sim N \离开({0 \伽马^{2}}\右)$ $
(3)
我$ $ \ varepsilon_ {2} \ sim N \离开({0 \τ^{2}}\右)$ $
(4)

其中B为二项分布;N为正态分布;xCi, XEi为第i项研究中对照组和暴露组的观察病例数;pCi,P.Ei是分别的控制和曝光组中的事件概率,分别研究了。nCi,nEi为第i项研究中两组的样本量;μ对应于暴露组和对照组的背景事件(疾病)概率;\θ(\ \)为暴露组事件概率与对照组事件概率总体比值的对数;\ \(γ^ {2}\)方差是否对应于暴露组和对照组中观察到的疾病概率的不确定性k研究的贡献;\ \(τ^ {2}\)方差是否与仅存在于暴露组的异质性相对应k研究的贡献;我\ (\ varepsilon_ {1} \)是暴露组和对照组的背景事件(疾病)概率的正态分布偏差i贡献研究和我\ (\ varepsilon_ {2} \)由于暴露组的异质性,背景疾病概率是否存在正态分布偏差i贡献研究。

Dersimonian-Laird(DL)方法的基本原理

如上所述,该研究开发了一种用于进行META分析的精确方法k2 × 2表的异质性,并与DerSimonian和Laird (DL)开发的最流行的方法进行对比[6].

对于每一项有贡献的研究,DL技术计算样本优势比的对数,并根据这些对数的渐近分布对该测度的方差进行相应的估计。对包含零单元格计数的单个2 × 2表格中的条目进行了调整。方程5- - - - - -8下面是核心的DL方法。在情商。5,是对研究间变异性的估计,\ \(τ^ {2}\),首先由Cochran的Q统计量和分配给每个k贡献研究,\ (\ omega_{我}\).每个权重等于估计的固定效应对数比值比的方差的倒数,\(hat{\theta}_{i},\)因为那项有贡献的研究。

$$\hat{\tau}{2}=\frac{Q-\left({k-1}\right)}{{\sum\omega{i}-\left({\frac{\sum\omega{i}{2}}{{\sum\omega{i}}\right)}$$
(5)

如Eq。6,一套新的权重,\ (\ omega_{我}^ {^ {\ '}}\),然后根据估算值进行计算\(\hat{\tau}^{2}\)从方程。5以及贡献研究的标准误差。

$ $ \ omega_{我}^{^{\ '}}= \压裂{1}{{SE \离开({\帽子{\θ}_{我}}\右)^{2}+ \τ^ {2}}}$ $
(6)

然后使用这些新重量来计算整体日志差率比的估计,\ (\ theta_ {DL} \)及其标准误差,如EQS所示。78

$ $ \帽子{\θ}_ {DL} = \压裂{{\总和\ omega_{我}^{^{\ '}}\帽子{\θ}_{我}}}{{\总和\ omega_{我}^ {^ {\ '}}}}$ $
(7)
$$ se \ left({\ hat {\ theta} _ {dl}} = \ frac {1} {{\ sqrt {\ sum \ oomega__ {i} ^ {^ {\ prime}}}}}$$
(8)

然后基于大样本正态分布的统计显着性的测试。DL技术需要关于用于估计非暴力变异性的Q统计数据的渐近假设,\(\τ^ {2},\)正态分布需要检验统计显著性。一个更微妙的问题是,每个贡献研究的效应大小的个体估计之间的相关性可能会被扭曲,\(\theta_{i}\),以及每一种作用效应大小所使用的权重。

结果

二分分类荟萃分析总体统计显著性的非参数精确检验

Jakob Bernoulli提出的现在称为Bernoulli试验的概念为基于二分法分类数据的多个流行病学研究的非参数聚合方法提供了基础。本文对Bernoulli方法的改进为评估总体统计显著性提供了一种实用的精确方法。下面发展了一种相关的技术来估计二分法荟萃分析的效应大小。

这位杰出的17世纪数学家的许多重要贡献之一是,一个事件在一系列独立试验中的固定概率的思想,这导致了现在所谓的伯努利试验和相关的二项式分布。简而言之,伯努利将一组统计事件视为一系列指数独立硬币翻转,每次翻转的概率为p,获得头部和q = 1.− 获得尾巴的p。这种假设的硬币通常被视为公平的硬币,p和q都等于0.5。最简单的伯努利试验方法包括一系列n抛掷并回答这样的问题:在n次抛掷中观察到×正面的概率是多少?(参见Rosner [13])。在流行病学中,我们可以考虑每一个k将meta分析作为一个单一的伯努利试验,p = 0.5。然后结合k可以分析研究作为二项式分布。这是标准标志测试(例如,参见[14])。

例如,对于20项研究的元分析中,如果15 20研究有更多的病例暴露组比对照组,我们可以问:什么是概率15或20研究可以显示更多的更大的效应仅在偶然暴露组严格吗?如果这个累积概率小于预先指定的第一类错误水平(例如,0.05),就会拒绝原假设,并得出结论:在暴露程度和使用的终点之间可能存在统计上可靠的关系。

这种方法在实际流行病学中很少使用的主要原因是,它有两个关键缺陷。首先,伯努利二分法,正面反面的方法,并没有处理第三种可能的平局。这项研究的作者认为,迄今为止,没有真正有用的方法来处理这些情况,当在每个暴露和对照研究中有相同数量的事件,除了放弃研究。其次,一个真正精确的EBT方法需要对有贡献的研究的频率分布进行完全卷积,以得到联合频率分布。即使样本容量相同,每个k有贡献的研究可能有不同的伯努利概率,p,需要完整的卷积来确定相对于对照组的曝光组中的少数次数的空分布k贡献的研究。在处理领带问题之前,将概述组合分布的确定。

结合有助于元分析的个人研究

一个关键的问题是找到一种方法来结合个体的研究二项分布k贡献的研究可能各不相同p值变成一个整体的频率分布。

在广泛可用的计算能力之前,由于计算的笨拙性质,大量单个二项分布的卷积通常是通过近似方法来处理的。即使有了可用的计算机能力,卷积仍然常常是不切实际的。涉及24荟萃分析研究为例,每一个都有独特的二项分布,有超过200万的独特组合研究,需要考虑计算单一离散概率12 24的研究有更多的病例暴露组比对照组。脚注1然而,Butler和Stephens在1993年的一份技术报告中以一种容易实现的方式提出了一种精确的算法[15]即使在个人计算机上也可以轻松实现。该算法产生了本申请中的单个二项分子分布卷积的精确概率分布,该申请将对应于有助于元分析的具体研究。该方法利用二项式分布中固有的复发关系,其允许半自动计算其概率,而无需诉诸简单但绝大效率低下的研究。这种易于建立的关系可以说明:

$ $ P \离开({X = 0} \右)= \离开({1 - P} \右)^ {n} \;如果\;j = 0 $ $
$ $ P \离开({X = j} \右)左= \ \{{\压裂{{\离开({n - j + 1} \右)}}{j}} \右\}\ * \左\{{\压裂{P}{{\离开({1 - P} \右)}}}\右\}\乘以P \离开({X = j - 1} \) \;如果\,j \通用电气1 $ $

数字2比较Butler和Stephens方法相对于传统卷积所需的计算机可执行步骤的估计数量。

图2
图2

根据Butler和Stephens估算的计算机可执行步骤与传统卷积

可以看出,只有当贡献的研究数量小于或等于大约20个时,传统卷积才容易处理。

关系问题

将标准Bernoulli试验技术适应实际荟萃分析的下一个问题是处理有助于Meta分析的研究的暴露和控制臂中存在相同数量的病例的情况。在具有小样本尺寸和/或低疾病概率的研究中,最高概率系列通常是“0/0”系列,其中在曝光或控制臂中没有观察到情况。

处理关系的第一步是更明确地定义“成功”的标准。目前的EBT方法将成功定义为存在严格地与对照组相比,暴露组中的病例数量更多。根据该定义,研究的两个组中相同数量的病例或研究的对照组中更多的病例被视为“失败”本质上,这是一个三项式的情况。有成功,有失败,也有联系。我们只是简单地将对照组的失败与暴露组的失败和联系情况相结合,并称之为“失败”。

下面的等式9形成EBT方法的基础。已选择希腊大写字母“π”指定相对于另一个手臂在研究的一个手臂中有更多案例的概率,以区分这些参数来自潜在的疾病概率:

$$\Pi{{E{i}}}+\Pi{{{C{i}}}+prob\left({tie}\right){i}=1$$
(9)

在哪里\(\ pi _ {{e_ {i}}} \)=研究中暴露组病例严格多于对照组的概率我\ (\ Pi_ {{C_ {}}} \)=相对于研究中的曝光组的对照组严格更多地存在的概率我prob(领带)=在两组研究中发现完全相同数量病例的概率

假设\(\ pi _ {{e_ {i}}} \)我\ (\ Pi_ {{C_ {}}} \)在暴露组和对照组之间没有差异的无效假设下是相等的,重新安排条件,我们有:

$$2\Pi{{E{i}}}+prob\left({tie}\right){i}=1$$
(10)

\(\ pi _ {{e_ {i}}} \)我们有:

$$ \ pi _ {{e_ {i}}} = \ frac {{1 - prob \ left({tie} \ revent)_ {i}}} {2} $$
(11)

因此,计算\(\ pi _ {{e_ {i}}} \)参数为每个贡献的研究是首先确定的概率所有平局的情况下,为该研究。

这是一个非常简单的程序。确定\(左({tie}\右){i}\)对于每个贡献研究,所有的连接情况都需要列举,然后它们的概率总结在一起。

举个简单的例子,假设Study在每个曝光和控制臂中有100名参与者,并且潜在的事件(疾病)概率p是0.01。

在这100名参与者中,暴露组中没有病例的概率是:

$ $概率\离开({0例}\右)= 0.01 ^{0}\ * \离开({1 - 0.01}\右)^ {100}= 0.99 ^ {100}= 0.37 $ $

同样,在控制臂中没有病例的概率也是0.37。

因此,“0,0”平局的概率是\(0.37 ^ {2} = 0.13 \)这是惊人的大。

表格3.列出前五种平局情况的概率,并对这些概率进行计算\(左({tie}\右){i}\)脚注2

表3在曝光和控制组中观察到完全相同数量的情况,用于背景事件概率等于0.01和等于100的样本大小,例如观察到的情况的函数

如表所示3.,暴露组和对照组均有5例病例,均有30%以上的概率为零。应用方程(11),我们看到,在等概率零假设下,\(\ pi _ {{e_ {i}}} \)我\ (\ Pi_ {{C_ {}}} \)既等于0.35。因此,由于领带,标称0.50值\(\ pi _ {{e_ {i}}} \)我\ (\ Pi_ {{C_ {}}} \)已经大大减少了。

EBT技术确实是“投票计数”方法,而Rothman已经大大贬低了这种方法[16[其他是“避免方法”。但是,与一个简单的标志测试不同,EBT方法基于合理的关系问题,并结合了个体我\ (P_ {{E_ {}}} \)通过对单个贡献研究的频率分布进行形式卷积的等效值。

一种非参数化精确方法,用于估计二分法分析的效果大小

基本的评估技术

第二种精确的技术被开发用于估算二分法分类荟萃分析的效应大小。作为起点,我们可以简单地形成平均观察事件概率的比率,\(p{{E{i}}}\)\(p _ {{c_ {i}}} \)在每次研究的暴露和对照组中,以及跨越这些比率的平均值k贡献的研究。然而,这个简单的方法是高度偏颇的。如eq中描述的基础模型所示。1- - - - - -4,观察到的“成功”的数量在暴露和控制武器k每个贡献的研究都依赖于由我\ (\ varepsilon_ {1} \)在模型中。然而,暴露组包含了额外的变异来源,由我\ (\ varepsilon_ {2} \)在模型中。数字3.说明了通过简单地形成的比率来估计效应大小的问题\ (p_ {E} \)\ (p_ C {} \)

图3
图3

论证简单直接比较的不恰当性\ (p_ {E} \)\ (p_ C {} \)分布估计效果大小

即使图中所示的相对风险为1.0,暴露分布也会有正偏移,但至少对于事件概率的小(罕见)值,不会通过同样稳健的负偏移进行补偿。

微分斜度\(p{{E{i}}}\)分布相对于\(p{{C{i}}}\)分发是用来解决这个问题的。额外的歪斜在暴露组由于来源我\ (\ varepsilon_ {2} \)在情商。2通过从具有相同观测事件概率的纯二项式中获取总暴露组偏差和预期偏差之间的差值来估计。观测平均值\ (p_ {E} \)在整个k然后,贡献的研究被一个与倾斜水平的差异成比例的因素减少。

蒙特卡罗模拟的ebt和dl技术的统计显著性和效应大小估计

进行了一系列蒙特卡罗模拟,以评估EBT统计显著性检验和效应大小估计技术,并将其与典型使用的DerSimonian–Laird逆方差技术进行比较。模拟是用越来越普遍的统计语言R[17].划分的结果是使用R.中的“Meta”包计算的。

将暴露组与对照组事件概率之比为1.0、1.25、1.5、1.75和2.0的5个相对风险水平与疾病背景事件概率(0.005、0.01和0.05)和样本量(50、100和200)3个水平交叉。最后,进入每个荟萃分析的研究数量被选择为5、10、20或40项研究。这些选择可以直接与前面提到的工作进行比较([1218]). 实际上,背景事件概率仅限于流行病学研究中通常遇到的较小值,如表1所示2

此外,贡献研究之间的异质性,τ2在情商。4,在0(同质性)、0.4和0.8进行评估,再次允许与早期工作进行比较。最后一个值0.8代表了这些研究之间的巨大差异,选择这个值部分是为了能够将结果与之前的工作进行比较。例如,在τ2 = 0.8,标称暴露组事件概率\ (p_ {E} \)0.05的变化范围为0.007到0.39,超过35:1。最后,暴露组和对照组的共同变化由\ \(γ^ {2}\)在情商。1被选为0.5,再次允许与前面的工作进行直接比较。

使用EBT和DerSimonian技术评估每个复制的统计显著性和效应大小。所有模拟运行均进行了10000次复制。使用0.05的值作为预先指定的I型错误水平。Agresti提倡的“Mid-P”技术[19]其他人被用来确定p以保守方式的价值观导致更现实的功率水平。

蒙特卡罗模拟结果:检验统计显著性

图显示了EBT和DL方法的结果。为了简化呈现,仅利用预期案件数量大于或等于两个的情况。表格4显示包含的场景。

表4所包括场景的统计学意义分析

当相对风险为1时,功率为I型错误,或等效为误报率。基本的发现是,EBT方法在同质和异构场景中都保持了预先指定的Type I错误级别,而DL方法在异构场景中有许多违反这一级别的情况。对于齐次情况,τ2= 0时,EBT和DL方法都尊重预先指定的Type I错误级别。然而,对于τ2= 0.4,对于τ2= 0.8时,DL方法违反了这个水平。正如预期的那样,随着贡献研究的数量增加,EBT和DL方法的相对风险大于1的能力都增加了。单独的分析表明,图中功率估计的标准差。4小于或等于0.42%(即,0.0042)。

图4
图4 图4

研究数量、相对风险和异质性的函数。一个CE, 和G用于EBT方法和BDFH都是DL方法

实际上,EBT和DL技术之间的相对风险比大于1.0是不允许的,因为对于DL技术,存在大量违反预先指定的Type 1 Error的情况。

数字5是作为异质性(τ)函数的EBT技术和DL技术的I型错误(假警报率)的比较2).

图5
图5

作为异质性函数的EBT和DL方法的I型错误

可以清楚地看到,当前的EBT技术在一个非常大的异质性范围内相对抵抗异质性增加的影响。然而,DL技术对异质性表现出单调递增的敏感性。任何meta分析技术在异质性面前表现良好的能力的一个相关方面是,它能抵抗来自一个或少数“流氓研究”的“污染”。由于EBT方法不允许这种不可靠的研究直接影响测试统计数据,它应该更能抵抗这些扭曲。

艾斯特蒂研究了庞大的离散成本[20.和其他人。

当贡献的研究数量很少时,离散性的第一代价就会产生。图中突出了过度覆盖的一般问题。6

图6
图6

作为贡献研究数量函数的间隔超限

对于最小数量的设备,超限是最大的k随着促进研究的数量增加,贡献研究和通常会降低。如图。6证明,即使是500项贡献研究的不切实际水平,也仍然与相对较大程度的过度使用有关。虽然这种离散性明显降低了权力,但可以说,基于极其稀疏的表格和少数研究的统计显著性发现需要更有力的证据。不幸的是正如Kontopantelis等人所说,荟萃分析的主要内容包括不到两到三项研究在对Cochrane图书馆所有荟萃分析的广泛分析中显示[21].

另外还对不平衡设计(贡献研究的暴露和控制组的样本大小不等)和贡献研究的样本大小不等的元分析进行了蒙特卡罗检验。表格5显示用于典型不平衡设计的两组的样本大小,其中对照组样本大小是曝光组样本大小的两倍。将研究的两个武器的两个样本尺寸的总和选择为200产生100的平均样品大小,以允许与图1的平衡设计进行比较。4

表5模拟不平衡设计的样本量

表格6下面是不均一值τ的模拟结果2= 0 and τ2= 0.8,事件(“疾病”)概率为0.05,研究数为10,样本量(平均)为100。模拟运行包括10,000次重复,如图所示。4

表6功率(%)为不平衡设计表5τ2(异质性)= 0和0.8;事件概率= 0.05;研究数量等于10;样本量(每个研究部门)等于100

如表中所示6显示,当异质性为0.8时,EBT技术的I型误差(相对风险= 1.0)仍低于5%的指定值,但DerSimonian技术的I型误差远高于这一点。

表格7下面显示了每个参与研究的暴露组和对照组的样本量,参与研究的样本量不等。选择该特定设计作为相对极端的情况。可以看出,两组的平均样本量保持在100,以便比较等样本量场景下的仿真结果如图。4

表7非等样本量设计模拟的样本量

表格8下面是τ非均匀值的模拟结果2= 0 and τ2= 0.8,事件(“疾病”)概率为0.05,样本量(个体研究组平均值)= 100,与上述5个相对风险水平相同。模拟运行包括10,000次重复,如图所示。4

表8工作台不平衡设计的功率(%)7τ2(异质性)等于0和0.8;事件概率= 0.05;研究数量等于10;样本量(每个研究小组的平均值)等于100

最重要的是,在异质性水平为0.8时,与DL技术相比,EBT技术在保护预先规定的I型错误水平方面更为优越。

两种荟萃分析技术研究中常见的蒙特卡罗模拟的一个明确发现是,寻找小效应大小显然是徒劳的。EBT和DL技术在相对风险接近2.0之前,都很难可靠地找到具有统计意义的结果。而这一发现并不直接影响本报告所研究的问题,对于那些继续试图从稀疏数据中挑出非常小的影响的人来说,确实是一个警示故事。

Monte Carlo模拟结果:效果大小估计

数据78捕获估计效果大小的基本发现。

图7
图7

效应大小作为相对风险和异质性的函数。一个B分别对应于EBT和DL方法

图8
图8

半间位范围作为相对风险和异质性的功能。一个B分别对应于EBT和DL方法

再次,仅利用其中观察病例的预期数量大于或等于两个的模拟场景。由于对Meta分析的研究数量的效果小于该效果大小估计,因此在该变量上取平均结果。如图1所示。7,两种方法在估计相对风险水平时合理成功。然而,两种方法通常低估了τ的相对风险2= 0,高估了τ2= 0.4 and τ2= 0.8。最后,如图所示。8, DL方法的四分位范围比EBT方法小得多。

结论和对未来的建议

本研究开发了一个精确的测试,用于对二分法、分类数据进行荟萃分析,并开发了一种相关的方法来估计效应的大小。

增强二项式技术(EBT)评估统计显著性

EBT技术在维持预先指定的I型错误水平方面大大优于DerSimonian技术。如图所示,当存在异质性时,DerSimonian技术证明了该水平的许多严重违反。鉴于在当今流行病学中普遍存在的寻找统计显著性的各种偏见,强烈关注维持预先指定的第一类错误水平似乎是至关重要的(见,例如,[22])。在面对极端异质性时,EBT方法在保持预先指定的Type I Error值方面有很大的优势。

增强二项技术(EBT)估计效应大小

开发了一种相关但独立的方法来估计效应大小。这项新技术与常用的DL方法相当,尽管两种方法都存在一些准确性问题。DL方法显示出较小的半IQR变异性。EBT方法在评估统计显著性方面明显优于DL方法,而DL方法在估计效应大小方面表现出较小的可变性,这一事实支持将这两种方法分开的可能效用,如本文开头所述。一种可能性是使用EBT方法进行统计显著性评估,使用DL方法进行效应大小估计。

虽然提供精确解决方案的统计程序已经存在,如Cytel的StatXact,但它们超出了大多数执业统计学家和流行病学家的能力。例如,Cytel公司目前列出的StatXact 11当前版本的价格超过900美元[23].

这里开发的技术是用几乎通用的统计语言R编写的,可以从作者处免费获得。因此,希望其他研究人员能够扩展和改进这些最初的版本。

正如本报告所概述的,流行病学中元分析的使用正在迅速增加,似乎正在满足一项重要需求。幸运的是,便宜和容易获得的计算机能力也在过去四十年中大幅增长。例如,任务速度以百万指令每秒(“MIPS”)衡量,从1972年IBM370大型机的0.64增长到2014年英特尔奔腾处理器个人计算机的238,000 [24].通过使用这里开发的技术和今天所有研究人员可用的计算机能力,可以很容易地确定统计显著性和估计效应大小,而不会出现不必要的错误。

数据和材料的可用性

两个软件程序都从作者自由使用。

笔记

  1. 1.

    这个组合的数量就是C(24,12) = 2,704,156。

  2. 2.

    6个或更多领带的概率降低到非常小的值。但实际上,EBT方法在计算中计算了所有可能的关联\(左({tie}\右){i}\)

工具书类

  1. 1.

    Shapiro S.荟萃分析/shmeta分析。我是Epidemiol。1994;140(9):771–8.

    中科院文章谷歌学术

  2. 2.

    Borenstein M,等人。荟萃分析简介。霍博肯:Wiley;2009年。

    谷歌学术

  3. 3.

    希金斯JP,编辑器。Cochrane干预措施系统回顾手册。奇切斯特:威利;2008.

    谷歌学术

  4. 4.

    Neyman J, Pearson ES。关于统计假设的最有效检验问题。Phil Trans R Soc Lond A. 1933。https://doi.org/10.1098/rsta.1933.0009

    文章谷歌学术

  5. 5.

    Higgins J, Deeks JJ, Altman DG。统计学专题。印:Higgins J,编辑。干预措施系统评论的Cochrane手册:Cochrane书籍系列。奇切斯特:威利;2008.p . 481 - 529。

    谷歌学术

  6. 6。

    DerSimonian R,Laird N.临床试验中的荟萃分析.对照临床试验.1986;7(3):177-88。

    中科院文章谷歌学术

  7. 7。

    Mantel N,Haenszel W.疾病回顾性研究数据分析的统计方面。《国家癌症研究所杂志》,1959年;22(4):719–48.

    中科院PubMed谷歌学术

  8. 8。

    Mantel N,Fleiss J. Mantel-Haenszel一度自由度Chi-Square测试的最小预期电池尺寸要求和相关的快速手术。am j流行病。1980; 112(1):129-34。

    中科院文章谷歌学术

  9. 9.

    费舍尔RA。研究人员的统计方法。爱丁堡:奥利弗和博伊德;1925.

    谷歌学术

  10. 10.

    HIGGINS JPT。评注:应预期荟萃分析中的异质性并适当量化。int j流行病。2008; 37:1158-60。

    文章谷歌学术

  11. 11.

    希金斯JPT,Thompson SG,Deeks JJ,Altman DG。测量Meta-Analys中的不一致。BMJ。2003; 327(7414):557。

    文章谷歌学术

  12. 12.

    王志强,王志强,王志强,等。罕见的二元不良事件数据的荟萃分析。[J] .中华医学杂志。2012;107(498):555-67。

    文章谷歌学术

  13. 13.

    Rosner B.生物统计数据的基础。第五届。太平洋树林:Duxbury Press;1999年。

    谷歌学术

  14. 14.

    Siegel S,Castellan NJ。行为科学的非参数统计。第二辑。新加坡:麦格劳山;1988年。

    谷歌学术

  15. 15.

    Butler K,Stephens M.分布一键随机变量的总和。在契约N00014-92-5-1264(NR-042-267)编制的技术报告No.467用于海军研究办公室。帕洛阿尔托:斯坦福大学;1993年。

    谷歌学术

  16. 16.

    Rothman K, Greenland S. meta分析。避免的方法有:定性计数(选票计数)和质量评分。纽约:Lippincott Williams Wilkins;1998.

    谷歌学术

  17. 17。

    统计计算的R项目。https://www.r-project.org/

  18. 18。

    保罗lm。大炮和麻雀:K 2×2表的元分析的确切最大可能性非参数测试。弹力主题流行病。2018年。https://doi.org/10.1186/s12982-018-0077-7

    文章PubMed公共医学中心谷歌学术

  19. 19。

    列联表的精确推理概论。集权的Sci 1992。https://doi.org/10.1214/ss/1177011454

    文章谷歌学术

  20. 20。

    Agresti A.《处理离散性:使比例、比例差异和优势比的准确置信区间更准确》《统计方法医学研究》2003年。https://doi.org/10.1191/0962280203sm311ra

    文章PubMed谷歌学术

  21. 21.

    Cochrane图书馆数据的再分析:meta分析中未观察到异质性的危险。PloS ONE。2013; 8 (7): e69930。https://doi.org/10.1371/journal.pone.0069930

    中科院文章PubMed公共医学中心谷歌学术

  22. 22.

    埃尼迪斯JPA。为什么大多数发表的研究结果是错误的。《公共科学图书馆·医学》2005。https://doi.org/10.1371/journal.pmed.0020124

    文章PubMed公共医学中心谷歌学术

  23. 23.

    Cytel Inc .)Cytel》2020。https://store.cytel.com/products/statxact?hsCtaTracking=be2ed66d-9346-4239-ad8b-c19193bfcda0%7C40b5c432-854f-4116-a2d2-079223b15428。于2020年11月17日查阅。

  24. 24.

    维基百科。[文件:“每秒指令”]。2016.https://en.wikipedia.org/wiki/Instructions_per_second.2016年6月3日。

  25. 25.

    Gellert C, Schöttker B, Abnet C, Bobak M,等。吸烟和戒烟对老年人心血管事件和死亡率的影响:对来自CHANCES联盟前瞻性队列研究的个体参与者数据的荟萃分析。BMJ。2015; 350: h1551。

    文章谷歌学术

  26. 26.

    帕金森氏病的发病率:系统综述和荟萃分析。神经。2016;46(4):292 - 300。

    文章谷歌学术

  27. 27.

    阿尔茨海默病协会。2015阿尔茨海默病事实和数据。老年痴呆症痴呆症。2015;11(3):332。

    文章谷歌学术

  28. 28.

    Torre L,Siegel R,Ward E,Jemal A.全球癌症发病率和死亡率和趋势 - 更新。癌症流行病生物标志物上一页。2016; 25(1):16-27。

    文章谷歌学术

下载参考资料

确认

没有致谢。

资金

这项工作没有获得资金。

作者信息

隶属关系

作者

贡献

LMP完成了全部工作。作者阅读并批准了最终的手稿。

通讯作者

通信劳伦斯M.保罗

道德声明

伦理批准和同意参与

没有实验参与者。

同意出版

不需要同意。

相互竞争的利益

作者没有竞争利益。

补充资料

出版商的注意事项

亚搏体育官方电话施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

劳伦斯·m·保罗:美国新泽西州萨默塞特贝尔实验室退休

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

加农和麻雀II:在meta分析中确定统计显著性和效应大小的增强伯努利精确方法k2×2表。Excemes Epidemiol.18,11 (2021). https://doi.org/10.1186/s12982-021-00101-8

下载引用

关键字

  • 荟萃分析
  • 分类分析
  • Mantel-Haenszel
  • DerSimonian
  • 精确解
  • 逆方差
  • 卷积
  • 异质性
  • 罕见事件
Baidu