跳过主要内容

预测或解释性?

抽象的

该杂志发表了关于流行病学研究中有关递归分区的文献的评论,比较了两种决策树方法:分类和回归树(购物车)和条件推理树(CITS)。论文中有两种潜在混淆的来源:一个在于定义和比较,而另一个则是更笼统的,而另一个则是指超参数的使用及其通过重新采样技术进行调整。

Venkatasubramaniam等。[[1]介绍了一篇关于流行病学递归分区的非常有趣的论文。他们的贡献特别重要,因为他们提出了一种新型的图形可视化工具,该工具使从业者可以识别亚组。

然而,其中包含的某些陈述是不正确的,可能会误导该领域的非专家。

首先,本文传达了条件推理树(CITS)的观念[2]通常比分类和回归树(购物车)更好[3]因为他们遵循每个分裂步骤中的形式统计推理程序,并且仅强调购物车的缺点,同时倡导使用CIT,因为它们的简单性和易于解释。虽然该定义可以在原始论文中找到[2],不太熟悉其背后的统计和技术的读者可能得出结论,即购物车是一种不太有效的统计方法。CITS出生于公正的递归分区框架,目的是提供统一公正通过p- 为了减少在切口选择中进行多个比较的影响从中,最初的手推车遭受了[4,,,,5]。首先指出,CART中的拆分标准有利于具有更多值(即缺失值,更多类别或不同数值值)的预测变量,从而提供了更多的分裂。这在随机森林中尤其有问题,在随机森林中,树木成长为纯度,但是当单个回归树长成长时,通常不太相关,在这种情况下,停止规则阻止了非信息分裂[6]。从业者使用CIT可能会更自在,因为它们嵌入了熟悉的空中假设显着性测试(NHST)框架。尽管如此,我们警告读者,这种轻松是有代价的:NHST一直受到数十年的批评(例如,见[例如7,,,,8,,,,9,,,,10]),因为它不是甚至统计的一部分,这是一个Fisher的无效假设测试和Neyman不一致的混合动力-皮尔逊的决策理论[[11]。

期限有条件事实是,响应变量的分布y给定状态m协变量是通过树结构化递归分隔建模的。假定条件分布d((y | x反应y给定协变量X取决于功能F协变量d((y | x)= d((y | f((X1,…,,Xm)。从这个意义上讲,推车和广义线性模型[12]也是有条件楷模。此外,Venkatasubramaniam等。[[1]指出,在CRIT中,每个协变量与结果之间的关联被量化在回归模型中使用系数

此陈述是错误的,因为 -2] - 依赖性yX在置换测试框架中,线性统计的条件分布的平均值[[13]。

在本文中,尚不清楚购物车和CIT谎言之间的概念差异:CIT将拆分变量的选择与已经选择的拆分变量的拆分点的选择分开,而购物车则没有。之间的关联yX通过线性秩检验评估。对于生存数据,进行审查数据的对数秩转换。如果发现该关联很重要,则协变量很小p选择值进行分裂,并通过比较分配变量的所有可能分区的两样本线性统计来找到最佳的拆分点。除此之外,如果使用了二次形式的测试统计量,则分裂为公正[[14]。

根据 [15],两个主要的缺点CITS是选择拆分变量的关联测试是基于线性秩统计的,而最佳拆分是基于二分法阈值的拆分。此外线性等级统计数据无法检测自变量中的非线性效应。对此过程的改进(虽然仍提供公正的分裂选择)是由[15]并使用已调整的最大选择的等级统计信息p值,使得拆分变量和拆分点选择发生在与购物车的原始实现相同的步骤中。

本文中的另一个混乱来源在于停止规则部分。在这里,交叉验证(CV)被描述为停止规则用于递归分区方法。停止规则实际上是基于超参数(通常称为pre-修剪)控制树木的复杂性,两个功能rpartCtreer分享一些,例如Minbucket分钟,即任何终端节点中的最小观测值以及必须在节点中存在的最小观测值,以便尝试进行分裂;虽然有独特的人,即rpart具有复杂性参数CP,例如总体r2必须增加CP在每个步骤中,CtreeMincriterion,这是1- p为了实现拆分,必须超过的值,默认情况下将其设置为0.95。这是NHST中使用的纯常规阈值(即p < 0.05), which might not be ideal for all applications [9]。这神圣Fisher都强烈劝阻0.05标准[16]和Neyman -Pearson [17]。环境CPrpart到更大的值(CP = 0.01 by default), might be enough to obtain smaller trees, avoiding interpretability problems and uninformative splits [6]。

一种常见的策略是种植一个不超过每个节点中给定数量的样品的大树(例如,Minbucket = 5) [18],然后使用该大树修剪(即减少)成本-复杂性修剪。所有这些参数,避免树在根之后进一步分裂,可以通过-验证(例如商在包装r),有时被称为邮政-修剪。用一组超参数构建的树,获得了最小的交叉验证误差,或者在预先指定的阈值中,例如在一个标准错误中[3]。当CV用于超参数选择时,必须创建大量的参数网格,只有一个被选为其中的赢家竞赛,而生成后,任何树都可以修剪。自从Mincriterion可以看作是受优化的超级参数[2],不能保证更简单的树木 - 可以用大的树木获得Mincriterion必须最适合预测,同时也可以调整手推车中的超参数以提供较小,更容易解释的树。因此,由于简单和易于解释是由于更为严格的(尽管任意任意)将规则设置为包装中的默认设置(即Mincriterion = 0.95). This actually brings us back to a simple question:预测或解释性是我们所追求的吗?购物车和CIT都可以并且应该是杂交的。

结论

这项工作的目的是清除有关杂志上发表的论文中所包含的流行病学中使用的递归分区方法的一些不正确且可能令人困惑的陈述。有条件的推理树通常提供更简单的模型与分类和回归树相比,只是因为默认设置Ctree比在rpart。如果用户需要rpart为了提供更简单的模型,应该选择对分裂规则的更限制条件,因为它们可能不太愿意解释具有十多个终端节点的树。当焦点为预测时,应通过某种重新采样方法(例如交叉验证或自举。

数据和材料的可用性

不适用。

缩写

大车:

分类和回归树

CIT:

有条件的推理树

简历:

交叉验证

参考

  1. 1。

    Venkatasubramaniam A,Wolfson J,Mitchell N,Barnes T,Jaka M,French S.流行病学研究中的决策树。新兴主题是流行病。2017; 14(1):11。

    文章谷歌学术

  2. 2。

    Hothorn T,Hornik K,Zeileis A.公正的递归分区:有条件的推理框架。J Comput Graph Stat。2006; 15:651–74。

    文章谷歌学术

  3. 3。

    Breiman L,Friedman J,Olshen RA,Stone CJ。分类和回归树。Boca Raton:CRC出版社;1984。

    谷歌学术

  4. 4。

    Strobl C.基于Gini索引的分类树算法中可变选择偏差的统计来源。技术报告,讨论文件// Sonderforschungsbereich 386 der Ludwig-Maximilians;2005。

  5. 5。

    Breiman L.分类和回归树。伦敦:Routledge;2017。

    谷歌学术

  6. 6。

    Sandri M,ZuccolottoP。基于树算法的节点杂质测量的分析和校正偏差。Stat Comput。2010; 20(4):393–407。

    文章谷歌学术

  7. 7。

    古德曼SN。朝着基于证据的医学统计数据。1:P值谬误。Ann Intern Med。1999; 130(12):995–1004。

    CAS文章谷歌学术

  8. 8。

    Gigerenzer G.统计仪式:复制妄想以及我们如何到达那里。ADV方法实践心理科学。2018; 1(2):198–218。

    文章谷歌学术

  9. 9。

    Cohen J.地球是圆形的。在:如果没有显着性测试怎么办?伦敦:Routledge;2016年。69–82。

  10. 10。

    古德曼SN。P值,假设检验和可能性:对被忽视的历史辩论的流行病学的影响。Am J Epidemiol。1993; 137(5):485–96。

    CAS文章谷歌学术

  11. 11。

    Gigerenzer G.无意识的统计数据。J社会欧洲。2004; 33(5):587–606。

    文章谷歌学术

  12. 12。

    Nelder JA,Wedderburn RW。广义线性模型。J r Stat Soc Ser A(一般)。1972; 135(3):370–84。

    文章谷歌学术

  13. 13。

    Strasser H,WeberC。关于置换统计的渐近理论;1999。

  14. 14。

    Strobl C,Boulesteix A-L,Zeileis A,Hothorn T.随机森林中的偏见重要性措施:插图,来源和解决方案。BMC Bioinf。2007; 8:25。

    文章谷歌学术

  15. 15。

    Wright MN,Dankowski T,ZieglerA。使用最大选择的等级统计数据,对随机生存森林的无偏分开变量选择。Stat Med。2017; 36:1272–84。

    文章谷歌学术

  16. 16。

    费舍尔RA。统计方法和科学推论;1956年。

  17. 17。

    Neyman J,Pearson ES。ix。关于统计假设最有效测试的问题。哲学反式s soc lond ser A包含PAP MATH PHYS CHARACT。1993; 231(694–706):289–337。

    谷歌学术

  18. 18。

    Friedman J,Hastie T,Tibshirani R.统计学习的要素,第1卷。1.柏林:施普林格;2001。

    谷歌学术

下载参考

致谢

作者感谢Patricia Rodriguez校对此手稿。

资金

不适用。

作者信息

从属关系

作者

贡献

作者阅读并批准了最终手稿。

对应作者

对应Stefano Nembrini

道德声明

道德批准并同意参加

不适用。

同意出版

不适用。

利益争夺

作者宣布他没有竞争利益。

附加信息

出版商的注释

亚搏体育官方电话关于已发表的地图和机构隶属关系中的管辖权主张,Springer自然仍然中立。

权利和权限

开放访问本文根据《创意共享归因4.0国际许可》的条款分发(http://creativecommons.org/licenses/4.0/)允许在任何媒介中不受限制地使用,分发和复制,只要您对原始作者和来源提供适当的荣誉,它提供了与创意共享许可证的链接,并指出是否进行了更改。创意共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非另有说明。

重印和权限

关于这篇文章

通过跨标记验证货币和真实性

引用本文

Nembrini,S。预测或解释性?新兴主题是流行病16,,4(2019)。https://doi.org/10.1186/s12982-019-0086-1

下载引文

Baidu