生信基本统计方法

An Overview of Commonly Used Statistical Methods in Clinical Research 2.462

Semin Pediatr Surg. 2018 Dec;27(6):367-374. doi: 10.1053/j.sempedsurg.2018.10.008. Epub 2018 Oct 25.


Abstract

Statistics plays an essential role in clinical research by providing a framework for making inferences about a population of interest. In order to interpret research datasets, clinicians involved in clinical research should have an understanding of statistical methodology. This article provides a brief overview of statistical methods that are frequently used in clinical research studies. Descriptive and inferential methods, including regression modeling and propensity scores, are discussed, with focus on the rationale, assumptions, strengths, and limitations to their application.

Keywords

Descriptive statistics
Inferential statistics
Regression analysis
Survival analysis
Propensity scores


在一项研究中,我们通常一开始就要对研究群体的特征进行描述统计。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析(通常用于分类变量categorical variables)、集中趋势和离散程度分析(一般指连续变量continuous variables)以及一些基本的统计图形,图1是对变量的分类。

图1.变量分类
在一篇文章中,对描述统计报告的得当有利于读者评估研究的适用性,下面小编给大家简单介绍一些描述统计常用的指标和图形工具:
1. 算数平均值(Arithmetic mean):指一组数的平均值,用于反映总体数据的集中趋势。
2. 方差 (Variance):将各个数据与平均数之差的平方相加再取平均,用来描述变量与均值的偏离程度。
3. 标准差(Standard deviation):计算方法为将方差开根号,跟方差作用一样,但是更直观。
4. 中值(Median):即有序变量的中间值,用来描述数据的中心趋势,排除了极端值的干扰。
5. 极值(Range):最大值减去最小值,描述数值的总体分布。用于研究很少发生,但一旦发生却会有巨大影响的随机变量。
6. 四分位差(Interquartile range):上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。反映了中间50%数据的离散程度,不受极值的影响。
7. 比例(Proportion):某一事件在整个群体中所占的比重,通常反映总体的构成和结构。
8. 发生比例(Incidence proportion):表示在一定观察期间内,新增案例占初始总体案例的比重。
9. 发生率(Incidence rate):描述在整个时间段内,一个新事件在总体中发生的频率。
10. 条形图(Bar chart):描绘分类变量的数值分布。
11. 直方图(Histogram):描绘连续变量的数值分布。
12. Kaplan–Meier曲线:描绘随着时间的推移,未经历某一事件(如死亡或复发)的概率。
然而,要想对研究群体之间的关联关系做出结论,则离不开推断统计。推断统计是指从总体中抽取部分样本,通过对抽取部分所得到的带有随机性的数据进行合理的分析,进而对总体的特征和关联作出科学判断,它是伴随着一定概率的推测。方法的选择主要取决于变量的类型(连续或分类)以及研究的目的,基本方法包括对组间均值比较的检验,高级方法包括回归建模来评估暴露因子和结果之间的关联。下面,小编分别对连续变量和分类变量的分析方法做了较为详细的说明。
连续变量的检验方法
t检验和方差分析
t检验用来比较一个群体的平均值和一个假设值,或者是比较两个群体的平均值。例如,在一项比较疾病两种治疗方法的随机试验中,t检验可以用来分析两组病人的年龄或体重指数等变量是否存在显著差异。方差分析(ANOVA)用于比较两组及以上的平均值(只有两组时,它和t检验的结果是类似的),显著的检验统计量(用于检验假设量是否正确的量, 在零假设下服从一个给定的概率分布)意味着这些组间至少有一对均值是不同的,这样就需要进行额外的配对检验,来揪出存在差异的组。在这种情况下,通常要矫正总体的显著性水平(就是我们常取0.05或0.01的那个α值),以避免增加I类错误的概率,I类错误就是错误的拒绝了零假设,即本来没有差别,却认为存在差异。此外,当有两个及以上变量对实验结果有影响时,可以使用多因素方差分析进行评估。
关键假定
正态性:当做t检验或ANOVA时(用于比较独立的样本均值),数据要服从正态分布;若不满足,则需要进行数据转换(如log转换)或做非参数检验(如Wilcoxon和Kruskal–Wallis),需要注意的是,非参数检验由于没有假定数据分布,对零假设的拒绝概率要低。
独立性:标准t检验和ANOVA需要假定观测单位(其数据被测量和表征的研究实体)是独立的。而对于聚类数据,如实验组和对照组配对、实验对象根据研究中心进行聚类或者重复度量相同研究对象的结果等,则可以选择使用配对t检验、重复测量的方差分析、混合线性回归。此外,还需要满足方差齐性,就是指不同处理不能影响随机误差的方差。
线性回归
线性回归是利用回归方程对一个或多个解释变量和因变量之间的关系进行建模的一种分析方法,它可以根据解释变量的已知值来预测一个因变量的未知值。简单线性回归(只有一个解释变量)的表达式是y =α + βx + ε,其中,α是直线的截距, x为0时表示y的均值;β是斜率或回归系数,表示x每增加1个单位y的平均变化值;ε为误差,表示观测值与回归线之间的差异。截距和斜率利用拟合最优直线的算法进行估计,若t检验得到斜率显著不为0的结果,说明x和y之间存在线性关联。多元线性回归模型则包含多个解释变量,但研究某一变量与因变量的关系时,其他的变量即协变量需要我们人为控制。一个线性回归模型的预测能力也可以通过拟合优度R2来评估,它衡量的是变量xi对y总变异的解释程度。
关键假定
残差的正态性:在线性回归模型中,残差(实际观察值与估计值的差)假设服从均值为0的正态分布。当不满足这一条件时,通常是将因变量或解释变量进行转换(如log转换)。
无多重共线性:多重共线性是指在线性回归模型中,解释变量之间由于存在精确相关关系或高度相关关系,而使模型估计失真或难以估计准确。处理多重共线性的方法包括从模型中删除一个或多个变量、使用已知指标合并共线性变量或使用主成分分析,主成分分析通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量。
独立性:标准的线性回归分析同样要求研究实体是独立的。当这一假设不满足时,比如对同一个体测量多次,根据这些测量值得到的残差就会产生关联,这种情况下,可以选择边际模型或线性混合效应模型。边际模型通过考虑残差之间可能存在的相关性,扩展了线性回归的参数估计算法,混合效应模型则是在估计截距和斜率时添加了系数。其他的假定,比如线性和方差齐性,小编就不唠叨了。
分类变量的检验方法
二项式和卡方检验
首先要说的是二项式检验,这是非参数检验方法,针对于二分类变量,临床上常用于推断某一人群的比例,比如估计手术后30天内伤口发生感染的患者比例的置信区间(就是误差范围)。对于有更多分类的变量,卡方检验则是常用的方法之一,它衡量了样本的实际观测值与理论推断值之间的偏离程度,卡方值越大,二者偏差程度越大。用于卡方检验的数据通常是r行c列的列联表,列表示结果变量,行为分组。同前面说到的方差分析类似,显著的卡方检验表明至少有两组的比例是不同的,这时同样需要进行多次配对比较,并注意校正。此外,当有分层变量(将受试者进行分层的变量,如性别、年龄等)时,可以选择Cochran–Mantel–Haenszel(CMH)检验,它可以对分层变量加以校正并比较不同组的率。
关键假定
样本大小:因为卡方检验需要计算近似p值和置信区间,因此样本量不可太小。通常来说,要求表中的单元格频率都不为零且频数小于5的单元格不超过20%。
对于小样本试验,可以考虑Fisher’s精确检验。
独立性:无论卡方检验还是Fisher’s精确检验,都要求组间独立。不满足这一假定时,替代方法有McNemar’s和Stuart–Maxwell检验,有需要的小伙伴自行查阅一下资料哈。

logistic回归
逻辑回归是一种用于检验分类结果变量y与一个或多个暴露因子xi间关联的广义线性回归模型,比如探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。逻辑回归的因变量最常见的是二分类,但也可以是多分类的,多分类可以使用softmax方法进行处理。
关键假定
传统的逻辑回归要求观测对象是相互独立的,当这一条件不满足时,常用的替代方法有广义估计方程(GEE)和广义线性混合模型(GLMM)。对于临床试验重复测量资料,GEEs能有效地考虑组内相关性,处理有缺失值的资料,其研究目标是整个群体而非个体,比如GEEs可用于检查多家医院脐疝修补术后30天出现并发症的风险与种族之间的关系,同时考虑医院对患者的聚类。GLMM则可以看作是广义线性模型GLM 和线性混淆模型LMM 的扩展形式,是一种处理非正态、非线性相关数据的有力工具。GLMM常用于评估个体/特定簇的关联度量或结果风险,如研究医院结果变化或服务利用。
事件发生时间(times-to-event)变量的检验
事件发生时间分析用于估计随着时间的推移,某一事件发生的概率,典型的就是生存分析。在医学研究中,比较生存曲线最常用的方法是对数秩检验(log-rank),它用于在病人结局事件的时间信息不完整的情况下,估计一个二分类结局的比率。比如,在一项研究中,患者随机接受两种治疗方案之一,并随访了一段时间,对数秩检验就可以用来估计患者的复发率,当然,用于非随机性的研究也是可以的。另外,Wilcoxon检验也是一种比较组间生存曲线的方法,小编看到有一篇文章提及当我们确信某种疗法在一开始效果较好,随着时间推移效果会减弱时,应采用Wilcoxon检验,而当我们对治疗方法没有太多概念时就选择log-rank。Wilcoxon更容易检验出早期的差异,相比之下,log-rank检验则更容易发现后期有差异的个体。
关键假定
对数秩检验具有很强的鲁棒性,对数据的分布没有要求。当已知数据服从指数分布时,似然比检验则是一种更有效的替代方法。

比例风险回归
比例风险回归分析,就是我们常说的Cox回归分析,它是生存分析中的一个重要模型,用来描述不随时间变化的多个因子对某一时刻死亡率的影响。比如,在一项研究病人再手术时间和种族间关系的试验中,比例风险回归会对其他协变量(如年龄、性别等)加以调整。模型的基本形式是:h(t) = h0(t) • eβx,h(t)是危险函数,表示具有协变量x的个体在时刻t的危险率;h0(t)是所有危险因素为0时的基础风险率;eβx是危险因子x增加一单位时的风险比(HR,相较于对照组而言)。
关键假定
比例风险:该回归模型中各危险因素对危险率的影响不随时间改变,就是说如果A组和B组相比,再复发的风险比是1.2,那么在随访的任一时间点A组都比B组多20%再复发的可能性。这一假定可通过Kaplan-Meier生存曲线检查,若在随访期两条线是平行的(当然记得要将两条曲线画在一个图里哈),表示满足这一假定。然而,当存在非比例风险时怎么办呢?解决方案也是有很多滴,比如基于非比例风险因子或时间间隔的分层分析,以及添加时间和非比例协变量之间的互作项(互作项的存在,表示一个协变量对结果的影响取决于另一个协变量的值)。
独立性:标准的比例风险回归同样要求观察对象的独立性。那么,肯定也会有很多不满足这个假定的情况出现,例如在包含多机构的临床研究中,虽然患者只经历了一次结果事件,却根据医生或医院对病人进行了聚类,这时可以选择随机效应比例风险模型;另一种情况是患者可能在随访期间接受了多次治疗,这时就可以替代性的选择重复事件比例风险模型。
倾向评分(PS)
在临床研究中,由于种种原因,常存在数据偏差和混杂变量,促使我们得出错误的结论。这里,小编先给大家解释一下混杂变量,直接举个简单的例子好了:就如我们研究喝咖啡和肺癌之间的关系时,吸烟就是一个混杂变量,它可以跟喝咖啡以及肺癌都有关联,对研究结果也会产生影响。好了,咱们继续往下讲,倾向评分正是为了减少这些偏差和混杂变量的影响,以便对不同的组进行更合理的比较。常用的PS计算方法是构建多变量逻辑回归模型,其中治疗状态为结果变量,基线特征(指临床特征和体重、年龄、病因等)作为预测变量。计算所得的倾向评分本身并不能控制混杂,而是通过匹配、分层或作为协变量进入回归模型直接调整混杂等方式,不同程度地提高对比组间的均衡性,从而削弱或平衡协变量对效应估计的影响,达到"类随机化"的效果。关于前两种方法,小编多啰嗦几句,PS匹配法就是利用产生的PS,在试验组与对照组中选择研究对象,构成新的试验组和对照组,然后进行两组间干预因素作用的比较;PS分层法是将两组研究对象按照PS进行分层,如果分层后两组在各层的PS均值非常接近, 则各混杂因素在每一层的分布将趋于一致, 此时可以认为各层的分配是近似随机的。PS法在实际研究中应用广泛,像R、State、SPSS等软件都有专门的包或模块可以用。

在临床研究中,结果变量的类型,研究对象的组数以及分析目的共同决定了我们对统计方法的选择。只有方法得当,我们才能得出正确的结论,研究结果在临床护理中也才能被合理的应用。

转自生信人

分享