1、数据/资料的分类:
①、计量资料,又称定量资料或者数值变量;为观测每个观察单位某项治疗的大小而获得的资料。
②、计数资料,又称定性资料或者无序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后而得到的资料。
③、等级资料,又称半定量资料或者有序分类变量。为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。 2、统计学常用基本概念:
①、统计学(statistics)是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。
②、总体(population)指的是根据研究目的而确定的同质观察单位的全体。 ③、医学统计学(medical statistics):用统计学的原理和方法处理医学资料中的同质性和变异性的科学和艺术,通过一定数量的观察、对比、分析,揭示那些困惑费解的医学问题背后的规律性。 ④、样本(sample):指的是从总体中随机抽取的部分观察单位。 ⑤、变量(variable):对观察单位某项特征进行测量或者观察,这种特征称为变量。 ⑥、频率(frequency):指的是样本的实际发生率。 ⑦、概率(probability):指的是随机事件发生的可能性大小。用大写的P表示。 3、统计工作的基本步骤:
①、统计设计:包括对资料的收集、整理和分析全过程的设想与安排; ②、收集资料:采取措施取得准确可靠的原始数据; ③、整理资料:将原始数据净化、系统化和条理化; ④、分析资料:包括统计描述和统计推断两个方面。
第二章 计量资料的统计描述
1. 频数表的编制方法,频数分布的类型及频数表的用途 ①、求极差(range):也称全距,即最大值和最小值之差,记作R; ②、确定组段数和组距,组段数通常取10-15组;
③、根据组距写出组段,每个组段的下限为L,上限为U,变量X值得归组统一定为L≤X<U,最后一组包括下限。 ④、分组划记并统计频数。
频数分布的类型包括对称分布和偏态分布;
偏态分布主要分为右偏态分布(也称正偏态分布)和左偏态分布(也称负偏态分布)。 频数表的用途包括以下几个方面: ①、描述频数分布的类型; ②、描述频数分布的特征;
③、便于发现一些特大或特小的离群值; ④、便于进一步做统计分析和处理。
2. 集中趋势指标的适用条件、计算方法和意义 。
统计学用平均数(average)这一指标体系来描述一组变量值的几种位置或者平均水平。
常用的平均数有算术均数、几何均数和中位数。 ①、算数均数,简称均数(mean),可用于反映一组呈对称分布的变量值在数量上的平均水平。计算方法包括直接计算法和频数表法(公式见2-2)。 ②、几何均数(geometric mean),可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,在医学研究中常用于免疫学的指标。(计算公式见于2-3) ③、中位数(median),适用于各种分布类型的资料,尤其是偏态分布资料和一端或者两端无确切数值的资料。
④、百分位数(percentile)是一种位置指标,是一个界值,其重要用途是确定医学参考值范围(reference range)。 直接计算法(公式见于2-7、2-8) 频数表法(2-9、2-10)
3、离散趋势指标的适用条件、计算方法和意义 。
描述数据变异大小的常用统计指标有极差、四分位数间距、方差、标准差和变异系数。
①、极差,一组变量值的最大值与最小值之差。
②、四分位数间距(quartile range,QR)是把全部变量值分为四部分的分位数后,由第3四分位数和第1四分位数相减而得。它一般和中位数一起描述偏态分布资料的分布特征。QR=P75-P25。
③、方差(variance)也称均方差(mean square deviation)离均差平方和与样本含量的比值。计算公式为2-11
④、标准差(standard deviation)是方差的正平方根,其单位与原变量值得单位相同。计算公式为2-13、2-14
⑤、变异系数(coefficient of variation)记作CV,多用于观察指标单位不同时,或者均数相差较大时两者变异程度的比较。计算公式为2-16
4. 正态分布的图形,正态分布的特征,正态曲线下面积的分布规律。
正态分布的特征:
①、在直角坐标的横轴上方呈钟形曲线,两端与X轴永不相交,且以X=μ为对称轴,左右完全对称。
②、在X=μ处,f(X)取最大值,远离μ,其值越小。
③、正态分布有两个参数,位置参数μ和形态参数σ,μ决定正态分布的曲线在坐标轴上的左右移动,越大越右移;σ决定曲线的弓背程度,越小峰值越高。
④正态分布曲线下的面积分布有一定的规律。X轴与正态曲线所夹面积恒等于1或者100%;
区间μ±σ的面积为68.27%; 区间μ±1.96σ的面积为95.00%, 区间μ±2.58σ的面积为99.00%。
5. 医学参考值范围的意义和估计方法。
医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。
由于存在个体差异,生物医学数据并非常数,而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参考标准。通常使用的医学参考值范围有90%、95%、99%
①、正态分布法:数据服从或者近似服从正态分布,或者通过适当的变换转换为正态分布,采用此方法之前一般要对资料进行正态性检验且要求样本含量足够大(如n≥100)
计算公式为2-23、2-24: 双侧: 单侧:
②、百分位数法:适用于偏态分布资料医学参考值范围的制定,所要求的样本含量比正态分布要多(不低于100)。 计算公式为2-25、2-26: 双侧: 单侧:
第三章 总体均数的估计与假设检验
1、基本概念:
①抽样误差(sampling error):指的是由于个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
②标准误(standard error,SE):指的是样本统计量的标准差。
③均数的标准误(standard error of mean,SEM):指的是样本均数的标准差。
※SEM反映样本均数之间的离散程度,也反映样本均数与相应总体均数间的差异。
均数的标准误的计算公式为3-1、3-2 ④统计推断(statistical inference):通过抽样研究的方法从总体中随机抽取一个样本,用样本的信息来推断总体的特征的统计学方法,包括参数估计和假设检验。 2、标准差的用途:
①、反映资料的离散趋势。标准差越小,说明变异程度越小,均数的代表性越好; ②用于计算变异系数; ③用于计算标准误;
④结合均数和正态分布规律估计参考值范围。 3、u分布与t分布: u分布(也称Z分布):指的是总体均数为0,总体标准差为1的标准正态分布N(0,12)。
t分布:随机变量X服从总体均数为μ,总体标准差为σ的正态分布N(μ,σ2),则可以通过u变换将一般的正态分布转化为标准正态分布。 ※但是通常获得的资料为样本的均数标准误,因此经过转换后并不是完全意义上的标准正态分布,而是服从t分布。(计算公式为3-3) t分布主要用于总体均数的区间估计和t检验。
4、可信区间:从固定样本含量的已知总体总进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1-α(如95%)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1-α。 5、参考值范围和总体均数可信区间的区别 见课本表3-2
6、标准差与标准误的区别和联系: 7、总体均数可信区间的计算:
※根据总体标准差σ是否已知以及样本含量n的大小而异,通常有t分布和u分布两类方法。
A、单一总体均数的可信区间:
a、总体标准差σ已未知:按t分布 双侧和单侧公式见3-5、3-6、3-7
b、σ已知或者未知,但n足够大(如>60)时:按u分布 双侧和单侧公式见3、8、3-9、3-10 B、两总体均数之差的可信区间:
※前提:两总体方差相等,但均数不等
计算公式见于3-12、3-13、3-14
8、t分布图的特征:
①、单峰分布,以0为中心,左右对称;
②、t分布的曲线形态取决于自由度v的大小,自由度越小,则t值越分散,曲线的峰部越矮而尾部翘得越高;
③、当自由度逼近无穷的时候,样本标准误接近总体标准误,t分布逼近标准正态分布。(标准正态分布是t分布的特例) 9、t检验的适用条件
t检验(t test/Student t-test)当σ未知且样本含量较小时(如n<60),理论上要求t检验的样本随机地取自正态分布的总体,两小样本均数比较式还要求两样本所对应的两总体方差相等,即方差齐性。在实际应用中,如与上述条件略有偏离,对结果影响也不大。 10、假设检验
A、假设检验的基本思想:利用小概率反证法的思想,从问题的对立面(H0)出发简介判断要解决的问题(H1)是否成立。即在假设H0成立的条件下计算检验统计量,然后根据获得的P值来判断。
B、假设检验的基本步骤:①建立检验假设,确定检验水准; ②计算检验统计量;
③确定P值,做出推断结论。 C、假设检验的错误
Ⅰ 型错误:拒绝了实际上成立的H0,这类“弃真”的错误;(α) Ⅱ型错误:“接受”了实际上不成立的H0,这类“取伪”的错误。(β) 注意:①α越小,β越大;反之α越大,β越小;
②若重点是减少Ⅰ 型错误,一般取α=0.05;若重点是减少Ⅱ型错误,一般取β=0.10或者0.20甚至更高;
③若要同时减小Ⅰ 型和Ⅱ型错误,唯一的方法就是增加样本含量n ; ④拒绝H0,只可能犯I型错误;接受H0,只可能犯Ⅱ型错误。对方差齐与否无要求 正态分布 对方差齐与否无要求 正态分布 t值 资料或 数据 计量资料(已知均数和/或标准差) 两样本(样本含量较小,≤60) 单样本t检验 适用于已知样本均数和已知总体均数的比较 适用于配对设计的计量资料 方差齐 适用于任意两计量资料的比较 Cochran&Cox近似t检验 t分布 (v=n-1) t分布 (v=n-1) 配对样本t检验 两样本t检验/成组t检验 t值 t值 t分布 方差齐 (v=n1+n2-2) 正态分布 t分布 t分布 方差不齐 正态分布 方差不齐 正态分布 方差不齐 t’值(校正t值) t’值(校正自由度) Satterthwaite近似t检验 ※两样本的方差比较时,可以使用F检验,分子为较大的样本方差(自由度为n1-1);分母为较小的样本方差(自由度为n2-1)。F值满足F分布,统计值为F值。 多样本 完全随机设计资料的方差分析 随机区组设计资料的方差分析 完全随机化分组方法将试验对象分配到g个处理组中去,试验后比较各组均数之间的差别 随机分配的次数要重复多次,且各个处理组实验对象数量相同,区组内均衡 F分布 方差齐 正态分布 方差齐 正态分布 F值 与成组t 检验意义相同 F分布 F值 与配对t检验意义相同 拉丁方设计资可多安排一个已知的对实验结果有F分布 料的方差分析 影响的非处理因素,增加了均衡性,减少了误差,提高了效率 两阶段交叉设计资料的方差分析 两种处理在全部实验过程中交叉进行 F分布 方差齐 正态分布 方差齐 正态分布 F值 F值 两个阶段之间一定要经过一段洗脱阶段以消除残留效应 ※多样本的多重比较 LSD-t检验/最小显着差异t检验,适用于一对或者几对在专业上有特殊意义的样本均数间的比较,统计量为t值 Dunnett-t检验适用于g-1个实验组与一个对照组均数差别的多重比较,统计量为Dunnett-t值 SNK-q检验适用于多个样本均数两两之间的全面比较,统计量为q值 ※多样本的方差比较 Bartlett检验,要求资料具有正态性,统计量为卡方;
Levene检验,比Bartlett检验要求低,不需要资料具有正态性,统计量为F值。其他分类资料 类型资料 四格表资料 通过两个样本的样本率来反映总体率有无差异 强调配对:即针对同一样本采取不同的试验或者处理方法。 用于多个样本率的比较、两个或多个构成比的比较以及双向无序分类资料的关联性检验 卡方分布 无方差齐性要求 无正态分布要求 无方差齐性要求 无正态分布要求 无方差齐性要求 无正态分布要求 无方差齐性要求 无正态分布要求 无方差齐性要求 无正态分布要求 无方差齐性要求 无正态分布要求 方差不齐 正态分布 卡方值 ※与两样本的u检验等价:u2=卡方值 配对四格表资料 行×列表资料 卡方分布 卡方值 卡方分布 卡方值 ※可用来分析两个分类变量之间有无关系或者关联 多样本率的多重比较 频数分布的拟合优度 不满足上述统配对样本的检计方法的资料、验 等级资料——秩检验 两独立样本比较 适用于多样本率两两之间的多重比卡方分布 较(基本思想:对卡方值进行校正) 推断频数分布的拟合优度适用于正态分布、二项分布、poisson分布和负二项分布 适用于配对样本差值的中位数和0比较;还可用于单个样本中位数和总体中位数比较 适用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布是否有差别 卡方分布 卡方值 H0: H1 卡方值 推断某现象的频数分布是否符合某一理论分布 样本量n>50时可用正态分布近似法 n1>10或n2-n1>10可用正态分布近似法作u检验 秩和(正秩和或负秩和)T值 秩和(正秩和或负秩和)T值 完全随机多样本比较 用于推断计量资料或者等级资料的多个独立样本所来自的多个总体分布是否有差别 用于对两变量总体间线性关系的估计 无方差齐性要求 无正态分布要求 H检验H值 g=3且最小样本的例数大于5或g>3,H近似服从g-1的正态分布,可用卡方分布法 多变量资料的处理——回归与相关 双变量直线回归 双变量直线相关 多元线性回归 线性、独立、方差回归方程齐性、误差服从均(回归系数为0的正态分布 数) 正态分布 相关系数r 用于判断两个数值变量之间有无线 性关系,双变量正态分布资料 用于分析一个应变量与多个自变量之间的线性关系 相关系数求出后应做假设检验 回归方程求出后应做整体假设检验以及各自变量的假设检验 MS组间/MS组内 正态分布 多元回归方程 N-1 g-1 N-g 第四章 多样本均数比较的方差分析 1、概念: ①离均差平方和(sum of squares of deviation from mean,SS)指的是各个观测值与总均数差值的平方。
②均方差,简称均方(mean square,MS)指的是离均差平方和与自由度之间的比值。 2、方差分析的基本思想:
设处理因素有g(g≥2)个不同的水平,实验对象随机分为g组,分别接受不同水平的干预。方差分析的目的就是在H0:μ1=μ2=……=μg 成立的条件下,通过分析各处理均数之间的差别大小,推断g 各总体均数间有无差别。
3、方差分析的应用条件为:各个样本是相互独立的随机样本,均来自于正态分布总体;相互比较的各个样本的总体方差相等,即具有方差齐性。 4、方差分析的变异分析:
总变异的大小——SS总:各个观测值与总均数差值的平方和; 组间变异的大小——SS组间:各组均数与总均数的离均差平方和;
组内变异的大小——SS组内:组内个观测值与其所在组的均数的差值的平方和。 并有SS总=SS组间+SS组内
由于组间与组内的离均差平方和的自由度不同,因此单纯的比较并无实际意义。 MS组间=SS组间/v组间;MS组内=SS组内/v组内 5、完全随机设计资料的方差分析: 变异来源 自由度 MS F 总变异 组间 组内 MS组间 MS组内 完全随机设计资料:
正态分布且方差齐:单因素方差分析
成组t 检验(意义相同t2 =F)
非正态分布或/和方差不齐:变量转换→单因素方差分析 秩和检验 6、随机区组设计资料的方差分析: 变异来源 总变异 处理间 区组间 误差 自由度 N-1 g -1 n -1 (n -1)(g -1) MS MS处理 MS区组 MS误差 F MS处理/ MS误差 MS区组/ MS误差 随机区组设计资料: 正态分布且方差齐:双向分类的方差分析
配对t 检验(意义相同t2 =F)
非正态分布或/和方差不齐:变量转换→双向分类的方差分析 Friedman M检验 初衷:考虑环境因素对实验结果的影响。
7、拉丁方设计资料的方差分析:
可多安排一个已知的对实验结果有影响的非处理因素,增加了均衡性,减少了误差,提高了效率。
完全随机设计只涉及一个处理因素;
随机区组设计涉及一个处理因素、一个区组因素;
如果实验研究涉及一个处理因素和两个控制因素,每个因素的类别数或水平数相等,此时可采用拉丁方设计。 变异来源 自由度 MS F 总变异 N-1 处理组 g -1 MS处理 MS处理/ MS误差 行区组 g -1 MS行 MS行/ MS误差 列区组 g -1 MS列 MS列/ MS误差 误差 (g -1)(g -2) MS误差 8、两阶段交叉设计资料的方差分析
该设计不仅平衡了处理顺序的影响,而且能把处理方法间的差别、时间先后之间的差别和实验对象之间的差别分开来分析。
9、多样本均数间的多重比较方法:LSD-t检验、Dunnett-t检验、SNK-q检验三种。 10、多样本方差比较:Bartlett检验、Levene检验
第五章 计数资料的统计描述
1、基本概念:
①、相对数(Relative number):是两个有关联的数据之比,用以说明事物的相对关系,便于对比分析。
常用的相对数指标很多,按联系的性质和说明的问题不同,主要分为:率、构成、相对比三类。
②、强度相对数--频率(frequency):是最常见的一种相对数,频率在实践中又称为比率(proportion)。它表示事物内部某个组成部分所占的相对多少。 ③、结构相对数 —构成比(constituent ratio):说明某事物内部各组成部分所占的比重或分布,又称构成比。 构成比可相加,和等于100%。 ④、优势相对数 ----比(ratio):是指两个有关联的指标A和B之比,简称比。A和B可以是性质相同,也可以是性质不相同。通常以倍数或百分数(%)表示。 ⑤、率的标准化法:指的是消除内部构成差别,使总体率能够直接进行比较的方法。采用统一标准调整后的率为标准化率,简称为标化率(standardized rate)。
标准化的基本思想: 采用统一的“标准人口构成”,以消除人口构成不同对各组总率的影响,使算得的标准化率具有可比性。
⑥ 、动态数列(dynamic series):是按时间顺序排列的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。
分析动态数列常用的指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
⑦ 、发展速度:表示报告期指标的水平相当于基线期(或前一期)指标的百分之多少或若干倍。
⑧、增长速度:表示的是净增加速度,增长速度=发展速度–1(100%)。 2、率的标准化的注意事项:
①.标准化后的标准化率,已经不再反映当时当地的实际水平,它只是表示相互比较的资料间的相对水平。
②.两样本标准化率是样本值,存在抽样误差。当样本含量较小时,比较两样本的标准化率,需要作假设检验。(但如果比较的两者是总体的参数,则可进行直接比较,无需进行t 、F检验)
第六章 几种离散型变量的分布及其应用
连续型分布举例:u 分布、t 分布和F分布;
常用离散型分布:二项分布、Poisson分布、负二项分布。 1、基本概念
①、二项分布(binomial distribution):是指在只会产生两种可能结果之一的n次独立重复试验中,当每次实验的“阳性”的概率π保持不变时,出现“阳性”次数X=0,1,2……n的一种概率分布。
②、Poisson分布(Poisson distribution):是二项分布的一种极端形式,指的是每次实验的“阳性”概率比较低的时候,出现阳性次数的相应概率满足以λ为参数的X~P(λ)。
2、二项分布的适用条件:
①、每次试验只会发生两种队里的额可能结果之一,即分别发生两种结果的概率之和很等于1;
②、每次试验产生某种结果的概率固定不变; ③、重复试验是相互独立的,不相互影响。 3、二项分布的性质
①、样本率的标准差也称为率的标准误,可以用来描述样本率的抽样误差,率的标准误越小,则率的抽样误差就越小。
②、当π=0.5时,二项分布图形是对称的,当π≠0.5时,图形是偏态的,随着n增大,图形趋于对称。当n→无穷时,只要π不太靠近0或1,二项分布则近似正态分布。
③、利用二项分布的性质,可进行总体率的区间估计和差异推断。(当n≤50时可查表得到可信区间,>50是可采用近似正态分布法) 4、Poisson分布的适用条件:
普通性:才充分小的观测单位上X的取值最多为1; 独立增量性:重复实验室相互独立的,不相互影响; 平稳性:每次试验阳性时间发生的概率都应相同。 5、Poisson分布的性质:
①、总体均数λ与总体方差σ2相等时Poisson分布的重要特征;
②、当n很大,而π很小时,且nπ=λ为常数时,二项分布近似Poisson分布; ③、当λ增大时,Poisson分布逐渐近似正态分布。一般而言,λ≥20时,Poisson分布资料可作为正态分布处理。 ④、Poisson分布具备可加性。 6、Poisson分布的图形特点:
当λ越小,分布就越偏态;当λ越大时,Poisson分布则越渐近正态分布。当λ≤1时,随X取值的变大,P(X)值反而会变小;当λ>1时,随X取值的变大,P(X)值先增大后变小。
第七章 卡方检验χ2
1、χ2分布曲线的特点:χ2分布曲线的形状依赖于自由度的大小①当自由度≤2时,曲线呈L形;随着自由度的增加,曲线逐渐趋于对称;当自由度→无穷时,χ2分布趋近正态分布。
2、χ2分布的基本性质:可加性;
3、χ2检验的原理:通过实际频数和理论频数满足f(χ2),来推断实际频数与理论频数的差异大小及有无统计学意义。 4、几种常见的资料类型:
①、普通四格表:自由度=(行数-1)(列数-1)
χ2可使用四格表专用公式;
×:n≥40且所有的T≥5 →使用基本公式;
P≈α时,改用Fisher确切概率法;
n≥40但有1≤T≤5 →四格表校正公式或者Fisher确切概率法 n<40或T<1 Fisher确切概率法
②配对四格表资料:b+c<40且1≤T≤5要校正; 5、Fisher确切概率法思想:
四格表资料周边合计数不变的条件下,计算表内4个实际频数变动时的各种组合之概率;再按照假设检验用单侧或双侧的累计概率依据所取得检验水准α做出推断。
6、行×列表资料使用范围:
多个样本率的比较;样本构成比的比较;双向无序分类资料的关联性检验; 7、多个样本率的多重比较:
多个实验组间的两两比较与实验组与同一对照组的比较均应对α进行校准,且方法相同。
8、拟合优度检验:
适用范围:推断某一现象的频数分布是否符合某一理论分布;比较实际频数与理论频数的差异大小。
第八章 非参数检验
1、非参数检验的适用范围:
①不满足正态分布和方差齐性条件的计量资料; ②对于分布不知道是否正态的小样本资料; ③对于一端或两端是不确定值得资料; ④推断等级资料的等级强度差别。 2、主要数据资料类型: ①配对样本比较:(样本量>50时可以采用近似正态法作u检验) H0:样本总体中位数=人群总体中位数; H1:样本总体中位数≠人群总体中位数。 ②两独立样本的比较:(n1>10或n2-n1>10时,令n1+n2=N,作近似正态分布检验)
H0:两样本总体分布位置相同; H1:两样本总体分布位置不同。 ③完全随机多个样本:
H0:多个样本总体分布位置相同; H1:多个样本总体分布位置不全相同。
注意:当完全随机的多个样本为两个样本时,使用完全随机多个样本的检验方法求得的统计值H(或HC)与使用两独立样本的u检验求得的u值等价。H=u2。
第九章:双变量回归与相关
1、直线回归(linear regression):因变量Y随着自变量X的变化而变化呈直线趋
势,但并非所有的对应点恰好全都在一条直线上,称为直线回归或者简单回归。 注:a 为常数项,是回归直线在Y轴上的截距;
b为回归系数(coefficient of regression),为直线的斜率;其统计意义是当X变化一个单位时Y的平均改变的估计值。
直线回归方程的求法
基本原则:最小二乘(least sum of squares)
将实测值与假定回归线上的估计值的纵向距离称为残差(residual)或剩余值。为了使各点残差尽可能的小,考虑到所有点之残差有正有负,所以通常取各点残差平方和最小的直线即为所求,如此得到的回归系数最理想。 统计推断的检验:方差分析F检验或者t检验
两者等价:t=F2
b离0越远,Y受X的影响越大,SS回就越大,回归效果越好; SS残越小,估计误差越小,回归作用越明显。 2、直线相关(linear correlation):两个数值变量进行比较时,一个变量在增加或者减少时,另一个变量也表现为增加或者减少,这两个变量之间的关系即为直线相关。
相关系数(correlation coefficient)又称为pearson积差相关系数,以符号r表示样本相关系数,符号ρ表示其总体相关系数。用来说明具有直线关系的两变量间相关的密切程度与相关方向。 相关系数的统计推断:t检验
决定系数(coefficient of determination):为回归平方和与总平方和之比。其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
3、残差图考察数据是否符合模型假设的基本要求: ①、应变量与自变量关系为线性; ②、误差服从均数为0的正态分布; ③、方差相等;
④、各观测对象独立。
4、直线回归与直线相关的区别和共同点
区别:①相关系数无单位,回归系数有单位;
②相关表示相互关系,没有依存关系,回归有依存关系;
③两者对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机变量,X是控制变量时,理论上只能做回归分析。 联系:①均表示线性关系;
②符号相同,共变方向一致; ③假设检验结果相同;(tr=tb)
④可以互相换算(数值的相同不代表意义的相同)
第十二章 重复测量设计资料的方差分析
1、重复测量设计资料的数据特征: ①、未设立平行对照的前后测量设计:(重复测量资料最常见的情况是前后测量设计)
前后测量设计与配对设计t 检验的区别:
a、配对设计中同一对子的两个实验单位可以随机分配处理,两个实验单位同期观察实验结果,可以比较处理组间差别;前后测量设计不能同期观察实验结果,虽然可以在前后测量之间安排处理,但本质上比较的是前后差别,推论处理是否有效是有条件的,即假定测量时间对观察结果没有影响。
b、配对t检验要求同一对子的两个实验单位的观察结果分别是差值相互独立,差值服从正态分布。而前后测量设计前后两次观察结果通常与差值不独立,大多数情况第一次观察结果与差值存在负相关的关系。
c、配对设计用平均差值推论处理的作用,前后测量设计出了分析平均差值外,还可进行相关分析。
②、设立平行对照的前后测量设计:
虽然分为处理组和对照组,但是不能进行差值均数t检验,因为通常两组差值的方差不会相等。
③、重复测量设计:
重复测量数据与随机区组设计数据相似,两者的差别是:
a、重复测量设计中处理是在区组间随机分配,区组内的各时间点是固定的,不能随机分配;随机区组设计则要求每个区组内实验单位彼此独立,处理只能在区组内随机分配,每个实验单位接受的处理是不相同的。
b、重复测量设计区组内实验单位彼此不独立,而随机区组内实验单位彼此独立,如果按照随机区组进行t检验则要求进行统计值的校正。
第十五章 多元线性回归资料的分析
适用范围:分析一个应变量与多个自变量之间的线性关系;
1、多元线性回归模型的一般形式:Y=β0+β1X1+β2X2+……+βmXm+e
a、偏回归系数βj的意义:表示在其他自变量保持不变的时候,Xj增加或减少一个单位时Y的平均变化量。
b、偏回归分布的应用条件:
①、Y与各个变量之间有线性关系; ②、各例观测值Yi相互独立;
③、残差e服从均数为0,方差为δ2的正态分布。(等价于对任意一组自变量X1、X2……Xm值,应变量Y具有相同方差,并且服从正态分布)
c、参数的计算方法:最小二乘法
2、多元线性回归方程的假设检验及其评价:(对整体的假设检验) A、可以将回归方程中所有的自变量作为一个整体来检验它们与应变量Y之间是否具有线性关系。
假设检验方法:方差分析法:H0:β1=β2=……=βm=0;H1:各βj不全为0. 若拒绝H0,接受H1,即可确定所拟合的回归方程有统计学意义。
1)决定系数R2:即为偏回归平方和与残差平方和的比值,其值越接近1,说明拟合程度越好。
2)复相关系数:决定系数开根号,可用来度量应变量与多个自变量之间的线性相关程度。
B、各自变量的假设检验:
①、使用方法为偏回归平方和(SS回(Xj)):表示在m-1个自变量的基础上新增加Xj所引起的回归平方和的增加量。其值越大,说明Xj越重要。 偏回归平方和检验:H0:βj=0;H1:βj≠0
注意:单独分析各个变量的偏回归平方和,所有值的和小于总的回归平方和,其原因是忽略了各个变量之间的相互作用成分。
②、t检验法:对于同一资料,不同自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y 的回归所起的作用越大。
③标准化回归系数:减少自变量观测单位不同对结果的影响。 在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。
3、自变量选择方法: A、全局择优法:
①、校正决定系数Rc选择法(当R2相同时,自变量个数越多,Rc越小,最优为Rc最大)
②、Cp选择法:应选择Cp最接近p+1的回归方程为最优方程。 B、逐步选择法: ①、前进法:(只选不剔)在有统计学意义的前提下,选取偏回归平方和最大的一个自变量做F检验以决定是否选入。 ②、后退法:(只剔不选)选取回归平方和最小的一个自变量做F检验以决定是否剔除。
③、逐步回归法:先选后剔,双向筛选。本质上是前进法,但每引入一个自变量进入方程后,要对方程中的每一个自变量做基于偏回归平方和的F检验,看是否需要剔除一些退化为不显着的自变量。
注意:为了避免已经剔除的自变量再次入选,选入自变量的检验水准要小于或等于剔除自变量的检验水准。
第十六章 logistic回归分析
logistic回归(logistic regression)属于概率型非线性回归。 适用对象:二分类或多分类影响因素之间的关系。
1、表示方法:阳性概率P=1/1+exp(-Z) Z=β0+β1X1+β2X2+……+βmXm
P的logit转换:logit P=ln(p/1-p)= β0+β1X1+β2X2+……+βmXm 回归系数βj表示自变量Xj改变一个单位时logit P的该变量。 2、模型参数的意义:
①、确定优势比(odds ratio,OR)——衡量危险因素作用大小的比数比例
OR适用于分类指标而不适用于计量指标;
多变量调整后的优势比(adjust odds ratio)ORj:表示扣除了其他自变量影响后危险因素的作用。
用来对比某一危险因素两个不同暴露水平Xj=c1和Xj=c0之间的发病情况。 1)βj=0时,ORj=1,说明因素Xj对疾病的发生不起作用; 2)βj>0时,ORj>1,说明因素Xj对疾病发生起危险作用; 3)βj<0时,ORj<1,说明因素Xj时一个保护因子。 ②、确定相对危险度(relative risk,RR)
对于发病率很低的疾病存在优势比即等于两种暴露水平之间的相对危险度。 2、logistic 回归方程的参数估计: 主要方法有最大似然估计法(maximum likelihood estimate,MLE)和优势比估计法。 3、logistic回归的适用对象:
①、比较各暴露因素的致病风险的大小; ②、多因素的共同作用的评价;
③、危险因素的筛选:多经文献报道选取,但统计学资料不能代替专业依据 4、logistic回归模型的假设检验:
常用的检验方法有似然比检验(likelihood ratio test)、Wald检验和计分检验(score test)——统计量为卡方值
logistic回归模型变量的筛选与多元线性回归相同。
第十七章 生存分析
1、生存分析资料与一般资料比较的不同: ①、同时考虑生存时间和生存结局; ②、通常含有删失数据;
③、生存时间的分布通常不服从正态分布。 2、概念:
生存时间(survival time),从起始事件到终点事之间所经历的时间跨度。 完全数据(complete data),在追踪观察中,当观察到了某观察对象的明确结局时,该观察对象所提供的关于生存时间的信息是完整的,这种生存时间数据称为完全数据。
不完全数据(incomplete data),在实际追踪观察中,由于某种原因无法知道观察对象的确切生存时间,这种生存时间数据也称为截尾数据。
生存率(survival rate)是指病人经历给定的时间之后仍存活的概率,若有截尾数据,应用乘积极限法。
生存概率(probability of survival)表示某段时段开始时存活的个体,到该时段结束时仍存活的可能性。
死亡概率(probability of death)表示某段时段开始时存活的个体,到该时段结束时死亡的可能性。
死亡率(death rate)指的是某单位时间内的平均死亡强度。
四分位数间距:记为Q,表示中间半数病人生存期的分布范围,它反映生存期的离散程度,其定义为:Q=T25-T75,式中,T25和T75分别是25百分位数和75百分位数.
3、生存率的估计与生存曲线:
小样本的生存率估计:kaplan-Meier法(又称乘积极限法) 大样本的生存率估计也可使用上述乘积极限法。。 4、生存率的比较:
最常见的方法是使用log-rank检验(也称为Mantel-Cox检验)
其基本思想为实际死亡数与理论死亡数之间的比较。统计量为卡方值 假设检验:H0:St(1)=St(2),即两种方式的患者生存率相同; H1:两种方式的患者生存率不同
5、多因素生存分析方法:Cox比例风险模型(为半参数法) 其参数的估计采用的方法为最大似然估计法 因素的筛选与多元线性回归模型相同。
注意:Cox比例风险回归模型的主要前提条件是假定风险比值h(t)/h0(t)为固定值,即协变量对生存率的影响不随时间的改变而改变。
第二十七章——第二十九章
1、医学科学研究的分类:
按照目的:验证性研究和探索性研究 按照形式:观察性研究与实验性研究 按照指标:单因素研究和多因素研究
按照时限:前瞻性研究、回顾性研究和横断面研究 按照对象:临床试验、社区研究和实验研究 2、医学科学研究的基本步骤: ①、选题;
②、制定研究方案; ③、收集资料;
④、数据整理与分析; ⑤、撰写研究报告。
3、调查研究(survey research)是指在没有任何干预措施的条件下,客观地观察和记录研究对象的现状及其相关特征。
调查研究的特点是:研究的对象及其相关因素是客观存在的,不能用随机化分组来平衡混杂因素对调查结果的影响。 4、常用的抽样方法包括:
单纯随机抽样(简单随机抽样)、系统抽样(机械抽样)、分层抽样(分类抽样)、整群抽样和多阶段抽样。
5、观察性研究中估计总体参数所需样本含量的条件: (1)、可信度1-α:其值越大,可信区间估计的可靠性越好,但相应所需样本含量就越大。 (2)、总体的标准差σ:其值越大,相应所需的样本含量也越大。 (3)、容许误差δ:即预计样本统计量与相应总体参数的最大相差控制所在的范围。用上面的三个条件求得的样本含量的意义是:当样本含量为n时,用统计量来估计总体参数,两者之差不超过δ的可能性是1-α。
6、实验设计的三个基本组成部分:实验单位、处理因素和实验效应
注意:特异性:反映该指标鉴别真阴性的能力,特异度高的指标能较好的揭示处理因素的作用
灵敏性:反映该指标检出真阳性的能力,灵敏度高的指标对外界的反应灵敏,能将处理因素的效应更好的显示出来。 7、实验设计的基本原则:对照(control)、随机化(randomization)、重复(replication)8、实验性研究中估计总体参数所需样本含量的条件: (1)、假设检验的Ⅰ 型错误概率α的大小:α越小,所需样本含量越大。对于相同α,双侧检验比单侧检验所需样本含量多。 (2)、假设检验的Ⅱ型错误概率β或检验效能(1-β)的大小:β越小,所需样本含量越多。 (3)、容许误差δ的大小:其值越大,所需样本含量越小。 (4)、总体的相关信息:总体标准差越大,所需样本含量越多;总体率越接近于
0.5,所需样本含量越多;总体相关系数越小,所需样本含量越多。总体的参数可通过样本来估计。
因篇幅问题不能全部显示,请点此查看更多更全内容