医学统计方法基础。
1 统计学概念
样本之间的变异(variation)使得实验或观察的结果具有不确定性,统计学的目的就是采用统计学方法,发现不确定现象背后隐藏的规律。
1.1 数据类型
定性/分类数据:又分为有序数据(如肿瘤分级、I级、II级等)和无序数据(如血型、性别);
分类数据的分层大于2时,为多分类数据。
定量/计量数据:连续型数据(如身高、体重)和不连续型数据(如疾病复发次数)。
1.2 总体与样本
总体:研究对象全体;
样本:样本要有随机性,并且具有总体的特征。
从总体到样本:sampling;取样中的问题:取多少?采样部位(均匀的或不均匀的,这与样本分布有关)?如何保证抽样的随机性?
从样本到总体:inference。推断不是百分百正确的,是有误差在的,怎样使误差最小?
1.3 参数与统计量
参数:总体的统计指标,如均值、标准差,固定的常数;
统计量:样本的统计指标,如样本均值、样本标准差,是在参数附近随机波动的随机变量。
一些常用的统计量:
方差:变异度分析
标准差:变量分布的离散程度,结合均数描述正态分布特征
标准误:样本统计量的标准差(描述抽样误差的大小)
极差:
四分位数间距:与中位数一起描述数据的集中和离散程度
变异系数:标准差/均值,代表数据沿着平均值波动的幅度比例,值越大意味着波动性越大,且该种波动性是以平均值作为标准。
1.4 统计推断
参数估计:用样本指标(即统计量)估计总体指标(称为参数)
点估计:直接估计,没有考虑抽样误差的情况
区间估计:以一定的可信度下(置信区间:1-α),同时考虑抽样误差,来估计总体
假设检验:假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。
一种叫原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。原假设的设置一般为:等于=、大于等于>=、小于等于<=。另外一种叫备择假设,用H1表示。备则假设是统计者想要接受的假设。备择假设的设置一般为:不等于、大于>、小于<。
抽样误差:样本统计量与总体参数之间的差异(由于个体差异导致的)。
标准误:均数的标准误/率的标准误
标准误与标准差
例如我们要调查地区A中10岁男孩的身高。如果全部都统计下来,直接测是最准确的数据。但是成本高,不现实。因此需要进行采样,一次测量100个男孩的身高,求这一次的均值M1与标准差S1,如果采样10次,每次都取100人,我们会得到10个均值,分别记为M1,M2,M3…M10,对这10个均值再求一个均值M以及标准差S,其中这个标准差S就是标准误(standard error),即均值的标准误差(standard error of mean)。
第一,标准差是对一次抽样的原始数据进行计算的,而标准误则是对多次抽样的样本统计量进行计算的(这个统计量可以是均值,可以是率);第二,标准差只是一个描述性指标,只是描述原始数据的波动情况,而标准误是跟统计推断有关的指标,大多数的统计量计算都需要用到标准误。
置信区间:按照预先给定的概率1-α,确定一个包含未知总体参数的范围,这一范围为参数的置信区间。
95%置信区间:从样本中作随机抽样,作100次,每个样本可算得一个置信区间,这100个可信区间中,平均有95个置信区间包含μ(估计正确),5个不包含μ(估计错误)。
p值的含义:p值并不代表差异显著性的大小,而是说明两组之间的差异具有统计学意义。同时,p值越小,实验结果重现性越好。
注:有统计学差异,不代表就具有生物学意义。
一型错误α:假阳性错误,弃真错误
I类错误,也称为假阳性错误,就是说实际上总体并无差异,原假设H0是成立的,但是通过假设检验P≤α,在设定α的检验水准下,拒绝了H0,认为有差异,出现了假阳性的现象。
二型错误β:假阴性错误,纳伪错误
II类错误,也称为假阴性错误,就是说实际上原假设H0不成立,但是通过假设检验P>α,在设定α的检验水准下,不拒绝H0,得出了阴性的结论,此时犯II类错误的概率为β。
基于样本的决定 | H0为真 | H0为假 |
---|---|---|
接受H1 | I类错误 | 正确 |
接受H0 | 正确 | II类错误 |
检验效能:1-β,即1-第二类错误的概率,表示在一定的检验水准下,当H1为真时,意味着H0为假,假设检验能够拒绝H0的概率。
2 假设检验方法的选择
1)、单组资料的分析
如果数据呈正态分布,则采用单样本t检验(One-Sample Test);如果数据呈非正态分布,可以采用相应的非参数统计方法Wilcoxon符号等级检验(Wilcoxon Signed-Rank Test)。
2)、两组资料的分析
首先,需要判别数据为定量数据还是分类数据。如果是定量数据,数据的分布特征呈正态,则选择两样本t检验(Two-Sample Test);如果定量数据呈非正态分布,则选择Wilcoxon等级和检验(Wileoxon Rank Sum Test)。对于分类数据,卡方检验(Chi-Square Test)被广泛运用。但值得注意的是,如果行列表中有1/5以上的格子理论频数小于5,或有一个格子理论频数小于1,卡方检验将导致分析的偏性。此时,可以采用 Fishe‘s 精确概率法(Fishe’s Exact Test)计算P值。
3)、三组或以上资料的分析
与两组资料分析类似,如果数据为定量资料呈正态分布,则采用单因素方差分析 (One way ANOVA);如果定量数据,呈非正态分布,则选择Kruskal一Wallis检验 (Kruskal一Wallis Test)。对于分类数据,多分类无序数据采用卡方检验(Chi-Square Test)或Fish‘s精确概率法;多分类有序数据可采用Cochran-Mantel-Haenszel 检验(Cochran-Mantel -Haenszel Test)。
4)、 等效性检验
等效性检验中无效假设H0指治疗间有差异(至少为Δ),Δ为临床无差异之和,拒绝H0意味着治疗之间差异没有显著意义。在双单侧检验(TOST)中,σ值是A药和B药的理论差异,Δ为无差异之和。在差异性检验中,无效假设H0居中,备择假设H1在左侧或右侧;在等效性检验中,备则假设H1居中,H0滑向两侧,那么研究者需设两个H0,即H01(σ≤Δ)和H02 (σ≥Δ),然后进行2次非劣效性检验(Δ-σ和σ-Δ)。在等效性检验中,通常只检验均值或率比。部分研究者倾向于找到σ的可信区间(CI),如果CI不能括入Δ,研究者有证据拒绝H0,并得出等效性结论。
5)、把握度分析
把握度分析可在设计试验阶段进行, 来阐明各试验设计参数之间的互变关系, 尤其是在不同的显著性水平下,研究者进行样本量与把握度关系间的分析,对设计试验时选择合适的样本量大小具有极为重要的作用。
6)、多因素方差分析(Multi-way ANOVA)
t检验是对一个变量的1或2个均值进行检验;方差分析又称F检验,单因素方差分析是对1个变量的≥3个均值进行检验;多因素方差分析是对2个或2个以上变量的多个均值进行检验。
7)、相关性分析(Researeh Question Sabout Relationships among Variables)
许多临床研究涉及对一组研究对象2个连续性变量的相互关系的研究。如用2个不同的指标测定心功能,拟评价这2个指标是否一致,这就需要涉及相关(Correlation)和一致性(Agreement)的评价。当数据为正态分布时,Pearson相关系数(Pearson‘s relation Coefficient)可以评价2个指标的相关性。当数据分布非正态,相应的非参数统计量为Spearman’s 等级相关系数(Spearman‘s Rank Correlation Coeffielent)以及Kendall’s Tau-b等级相关系数(Kendall‘s Tau-b Rank Correlation Coeffielent),两者类似,但更多的统计学家推荐使用后者。 对一致性的评价,定量数据可以采用Concordance相关系数(Concordance Correlation Coeffieient),分类数据采用 Kappa分析 (Cohen‘s Kappa statistic)。 值得注意的是,相关性与一致性的区别。如在临床研究中,希望评价一个新的方法是否等同于原来的方法,需要使用一致性分析。
8)、多因素分析(StatlstiealMethodSfo:MultipleVariables)
临床研究的对象常常为病人,与有严格实验条件控制的动物实验不同,除了研究的因素外,常需要控制许多混杂因素或协变量,统计分析需要采用多因素模型对协变量进行校正。统计分析软件和程序的使用为多因素分析提供了可能。根据反应变量的类型,可以采用多元线形回归(Muiriple LinearRegression)、协方差分析(ANOVA,Analysis of Covariance)、Logistic回归(Logistic Regression)、判别分析、聚类分析等。
9)、重复测量数据的分析(Methods for Analyzing Repeated Measures Data)
定量数据可以采用重复测量方差分析(Repeated-Measures ANOVA)以及混合效应模型(MixeD-effects linear Model)。对于分类数据,可以广义估算方程(Generalized Estimated Evluation,GEE)拟合Logistic模型。
10)、生存分析(Analyzing Researeh Questions about Survival)
分析一段时间后生存、死亡或其它事件发生情况需要采用生存分析,例如,研究者想了解心脏移植后病人生存天数是否与不同的手术方式有关。生存分析的目的通常是为了描述研究人群的事件发生时间(生存时间、suvival time)的分布特征,比较不同组的生存时间或研究生存时间是否与研究变量有关。单因素生存分析可以采用Log-Rank检验(Log-Rank Test);多因素可以考虑选择比例风险模型(Cox Proportional Hazards Model)。需要注意的是,在临床研究中经常包含重复测量数据,如病人从心脏移植至死亡发生期间,重复测量了多次心功能值,对于这种资料,可以采用SAS PHREG中,重复测量资料的cox模型的运用。
一些其他重要的:
一般情况下,大于两倍标准差(μ+2δ/μ-2δ),可以判断是奇异值。
一旦定下统计规则,就不能更改。
先把简单问题复杂化(选择统计方法),再把复杂问题简单化(描述统计结果)。
variation。
检验效能 power=1-β,β:二型错误;
样本量和检验效能的关系。样本量很大时,做卡方检验,卡方值很大,没有意义?