您的当前位置:首页正文

医学统计学(第二版)思考与练习答案

2021-04-09 来源:意榕旅游网
第四章 定量资料的统计描述

第四章 定量资料的统计描述

【习题解析】

一、思考题

1. 均数、中位数、几何均数三者的相同点是都用于描述定量资料的集中趋势。不同点:①均数用于单峰对称分布,特别是正态分布或近似正态分布的资料;②几何均数用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料;③中位数用于不对称分布资料、两端无确切值的资料、分布不明确的资料。

2. 同一资料的标准差不一定小于均数。均数描述的是一组同质定量变量的平均水平,而标准差是描述单峰对称分布资料离散程度最常用的指标。标准差大,表示观察值之间变异大,即一组观察值的分布较分散;标准差小,表示观察值之间变异小,即一组观察值的分布较集中。若标准差远大于均数表明数据离散程度较大,可能为偏态分布,此时应考虑改用其他指标来描述资料的集中趋势。 3. 极差、四分位数间距、标准差、变异系数四者的相同点是都用于描述资料的离散程度。不同点:①极差可用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度;②四分位数间距可用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度;③标准差用于描述正态分布或近似正态分布资料的离散程度;④变异系数用于比较几组计量单位不同或均数相差悬殊的正态分布资料的离散程度。

4. 正态分布的特征:①正态曲线在横轴上方均数处最高;②正态分布以均数为中心,左右对称;③正态分布有两个参数,即位置参数和形态参数;④正态曲线下的面积分布有一定的规律,正态曲线与横轴间的面积恒等于1。曲线下区间(2.58,2.58)内的面积为95.00%;区间(2.58,2.58)内的面积为99.00%。

5.①通过大量调查证实符合正态分布的变量或近似正态分布的变量,可按正态分布曲线下面积分布的规律制定医学参考值范围;服从对数正态分布的变量,可对观察值取对数后按正态分布法算出医学参考值范围的对数值,然后求其反对数;②对于经正态性检验不服从正态分布的变量,应采用百分位数法制定医学参

4-1

第四章 定量资料的统计描述

考值范围。 二、案例辨析题

统计描述时,常见错误是对定量资料的描述均采用均数、标准差。正确做法是根据资料分布类型和特点,计算相应的集中趋势指标和离散程度指标。本资料的血清胆固醇的频数分布图如下:

频数

图4-1 血清甘油三酯(TG)的频数分布

可见资料呈负偏态分布,不宜使用均数和标准差来描述其集中趋势和离散程度,而应计算中位数和四分位数间距,计算结果为:

集中趋势指标MX150X150/2(1.761.75)/21.755 (mmol/L)

122离散程度指标 四分位数间距= P75P252.101.340.76 (mmol/L)

三、最佳选择题

1. B 2. E 3. B 4. C 5. D 6. E 7. A 8. D 9. D

四、综合分析题 1. 解:输出结果

4-2

第四章 定量资料的统计描述

频数

图4-4 尿总砷的频数分布图

由图4-4可见,该资料集中位置偏向左侧,为正偏态分布,考虑作对数变换。 输出结果

频数

图4-5 尿总砷对数的频数分布图

由图可见lgx分布近似对称,可认为燃煤型砷中毒患者尿总砷含量近似服从对数正态分布。

(2) 燃煤型砷中毒患者尿总砷的含量近似服从对数正态分布,故应计算几何均数。 输出结果

4-3

第四章 定量资料的统计描述

Descriptive StatisticsNlgxValid N (listwise)176176Minimum-1.99Maximum-.24Mean-1.1831Std.Deviation.39685 结果中的Mean表示尿总砷对数值的均数为-1.1831,求其反对数,得到几何均数G0.0656(μg/L)。

2. 解:

(1) 已知健康人的血清TC服从正态分布,故采用正态分布法制定95%的参考值范围。

下限:X1.96S4.841.960.962.96(mmol/L)

上限:X1.96S4.841.960.966.72(mmol/L)

该市45~55岁健康男性居民的血清总胆固醇的95%参考值范围为2.96 mmol/L~6.72mmol/L。

(2) 45~55岁健康男性居民的血清总胆固醇分布为正态分布,需作标准化变换后,查表确定正态分布曲线下面积。由于是大样本,可用样本均数和样本标准差作为总体均数和总体标准差的点估计值。

Z13.254.841.66

0.96X5.254.84Z220.43

0.96X1查标准正态分布曲线下的面积表(附表2)得:

) (Z1)(1.660. 0485(Z2)1(0.43)10.33360.6664

D(Z2)(Z1)0.66640.04850.617961.79%

该市45~55岁健康男性居民中,血清总胆固醇在3.25mmol/L~5.25mmol/L范围内的比例为61.79%。 (3) 作标准化变换

Z

X3.804.841.08

0.964-4

第四章 定量资料的统计描述

查标准正态分布曲线下的面积表(附表2)得:

(Z)(1.08)0.140114.01%

该市45~55岁健康男性居民中,血清总胆固醇低于3.80mmol/L所占的比例为14.01%。

3. 解: 输出结果

频数 50 60 70 80 90 100 110 120 130 140 150

跟骨硬度指数

图4-8 跟骨硬度指数的频数分布图

由图4-8可见资料呈负偏态分布,因为跟骨硬度指数过高或过低均为异常,故应使用百分位数法,制定双侧95%参考值范围。

输出结果

Statistics

SI N Valid Missing 120 0 58.0167 143.6618 Percentiles 2.5 97.5 即该地区30~35岁健康女性的SI的95%参考值范围为(58.02, 143.66)。

4-5

第四章 定量资料的统计描述

第五章 定性资料的统计描述

【习题解析】

一、思考题

1.①计算相对数应时有足够的观察单位数;②分析时不能以构成比代替率;③计算观察单位数不等的几个率的合计率或平均率时,不能简单地把各组率相加求其平均值而得,而应该分别将分子和分母合计,再求出合计率或平均率;④相对数的比较应注意其可比性,如果内部构成不同,应计算标准化率;⑤样本率或样本构成比的比较应作假设检验。

2. 率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。构成比是指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,以说明事物内部各组成部分所占的比重,不能说明某现象发生的频率或强度大小。两者在实际应用时容易混淆,要注意区别。

3. 如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率;当不知道被标化组的年龄别死亡率,只有年龄别人口数和死亡总数时,可采用间接法。

4. 常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。绝对增长量是指事物现象在一定时期增长的绝对值;发展速度与增长速度都是相对比指标,用以说明事物现象在一定时期的速度变化;平均发展速度是指一定时期内各环比发展速度的平均值,用以说明事物在一定时期内逐年的平均发展程度;平均增长速度是说明事物在一定时期内逐年的平均增长程度。

5. ①标准化法的目的是通过选择同一参照标准,消除混杂因素的影响,使算得的标准化率具有可比性。但标准化率并不代表真实水平,选择的标准不同,计算出的标准化率也不相同。因此,标准化率仅用于相互间的比较,实际水平应采用未标化率来反映。②样本的标准化率是样本指标,亦存在抽样误差,若要比较其代表的总体标准化率是否相同,需作假设检验。③注意标准化方法的选用。如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率。但当被标化组各年龄段人口数太少,年龄别死亡率波动较大时,

4-6

第四章 定量资料的统计描述

宜采用间接法。④各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合采用标准化法,宜分层比较各年龄组率。此外,对于因其它条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。

二、案例辨析题

该结论不正确。因为该医生所计算的指标是构成比,只能说明98例女性生殖器溃疡患者中,3种病原体感染所占的比重,不能说明女性3种病原体感染发生的频率或强度,该医生犯了以构成比代替率的错误。

三、最佳选择题

1. B 2. A 3. D 4. E 5. D 6. D 7. C 8. C 9. B

四、综合分析题 1. 解:

表5-3 经常吸烟与慢性阻塞性肺病(COPD)的关系

经常吸烟

分 组 COPD患者 非COPD患者

调查人数

356 479

231 183

否 125 296

64.89 38.20

经常吸烟率(%)

COPD患者的经常吸烟率:231/356×100%=64.89% 非COPD患者经常吸烟率:183/479×100%=38.20% COPD患者的经常吸烟率比非COPD患者高26.69%

比值比(OR)=2312962.989

125183还需进一步对OR作假设检验(见第十一章),若经检验有统计学意义,可以认为经常吸烟与慢性阻塞性肺病(COPD)有一定的关系。 输出结果

4-7

第四章 定量资料的统计描述

分组 * 吸烟情况 CrosstabulationCount吸烟情况不吸烟吸烟296183125231421414Total479356835分组Total非COPD患者COPD患者 Risk Estimate95% Confidence IntervalLowerUpper2.2473.9761.5032.061.513.675Odds Ratio for 分组 (非COPD患者 / COPD患者)For cohort 吸烟情况 = 非经常吸烟For cohort 吸烟情况 = 经常吸烟N of Valid CasesValue2.9891.760.589835 2. 解:

表5-4 某地居民1998~2004年某病死亡率(1/10万)动态变化

年份 1998~ 1999~ 2000~ 2001~ 2002~ 2003~ 2004~

符号 a0 a1 a2 a3 a4 a5 a6

死亡率 160.5 144.2 130.0 120.2 85.6 69.5 38.5

绝对增长量 累计 — -16.3 -30.5 -40.3 -74.9 -91.0 -122.0

逐年 — -16.3 -14.2 -9.8 -34.6 -16.1 -31.0

发展速度

增长速度

定基比 环比

— 0.90 0.90 0.92 0.71 0.81 0.55

定基比 环比

— -0.10 -0.19 -0.25 -0.47 -0.57 -0.76

— -0.10 -0.10 -0.08 -0.29 -0.19 -0.45

0.90 0.81 0.75 0.53 0.43 0.24

该病死亡率的平均发展速度=nan/a0638.5/160.50.79 该病死亡率的平均增长速度=平均发展速度1=0.791=0.21

3. 解:因为该地男、女性的年龄构成有所不同,为了消除年龄构成的不同对HBsAg阳性率的影响,应先进行标准化再进行比较。根据本题资料,以男、女合计为标准人口,已知被标化组的年龄别阳性率,采用直接法计算标准化阳性率。

表5-5 直接法计算某地不同年龄、性别人群的HBsAg标准化阳性率(%)

4-8

第四章 定量资料的统计描述

年龄组 0~ 20~ 40~ 60~ 合 计

标准人口数

男性

原阳性率

预期阳性数

原阳性率

女性 预期阳性数

Ni

1081 1473 1546 1408 5508(N)

pi

2.30 2.71 6.06 7.52 5.11

Nipi

24.90 39.97 93.63 105.85 264 (Nipi)

pi

2.32 2.72 6.46 8.60 4.86

Nipi

25.09 40.02 99.86 121.04 286(Nipi)

264100%4.79% 5508286100%5.19% 女性HBsAg标准化阳性率:p5508男性HBsAg标准化阳性率:p可见,经标准化后女性HBsAg阳性率高于男性。 输出结果

Descriptive StatisticsNspsp1sp2Valid N (listwise)4444Sum5508.00264.35286.01 注:将SPSS输出的sp1的和除以sp的和,得男性HBsAg标准化阳性率;sp2的和除以sp的和,得女性HBsAg标准化阳性率。

第六章 总体均数的估计

【习题解析】

一、思考题

1.抽样研究中,由于同质总体中的个体间存在差异,即个体变异,因而从同一总体中随机抽取若干样本,样本均数往往不等于总体均数,且各样本均数之间也存在差异。这种由个体变异产生的、随机抽样引起的样本均数与总体均数间的差异称均数的抽样误差。决定均数抽样误差大小的因素主要为样本含量和标准差。 2.样本均数的抽样分布的特点有:①各样本均数未必等于总体均数;②样本均数之间存在差异;③样本均数服从正态分布;④样本均数的变异范围较原变量的

4-9

第四章 定量资料的统计描述

变异范围小;⑤随着样本含量的增加,样本均数的变异范围逐渐缩小。 3.标准差与标准误的区别在于:①计算公式:标准差为S误为SX(XX)n12,标准

S;②统计学意义:标准差越小,说明个体值相对越集中,均数对数n据的代表性越好;而标准误越小,说明样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大;③用途:标准差用于描述个体值的变异程度,标准误用于描述均数的抽样误差大小。

标准差与标准误的联系:当样本量n一定时,标准误随标准差的增加而增加,公式为:SXSn。

4.数理统计的中心极限定理:从均数为,标准差为的正态总体中进行独立随机抽样,其样本均数服从均数为,标准差为/n的正态分布;即使是从非正态总体中进行独立随机抽样,当样本含量逐渐增加时(n50),其样本均数的分布逐渐逼近于均数为,标准差为/n的正态分布。X越大,抽样误差越大,由样本均数估计总体均数的可靠性越小。反之,X越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。

计算总体均数置信区间的通式为:(Xt/2,SX,Xt/2,SX);当样本含量较大时,例如n100,t分布近似标准正态分布,可用Z值代替t值,作为置信区间的近似计算,相应的置信度为(1)时,总体均数的置信区间为:

(XZ/2SX,XZ/2SX)。

5.置信区间与医学参考值范围的区别见表6-1。

表6-1 均数的置信区间与医学参考值范围的区别

区别 意义

均数的置信区间

按一定的置信度(1)估计的总体均数所在的区间范围

①未知:(Xt/2,SX,Xt/2,SX) ②未知而n较大: (XZ/2SX,XZ/2SX)

医学参考值范围

大多数“正常人”的某项解剖、生理、生化指标的波动范围

①正态分布法: 双侧95%的参考值范围为(X1.96S,X1.96S) ②偏态分布法:

计算 公式

4-10

第四章 定量资料的统计描述

③已知:(XZ/2X,XZ/2X)

单侧下限95%的参考值范围为P5 单侧上限95%的参考值范围为P95

用途 用于总体均数的估计或假设检验

判断观察对象的某项指标正常与否,为临床诊断提供参考

二、案例辨析题

该学生误用医学参考值范围的公式来计算总体均数的95%置信区间,正确计算公式为:(XZ/2SX,XZ/2SX),二者的主要区别在于,计算医学参考值范围时应该用“标准差”,计算置信区间时应该用标准误。根据置信区间的公式算得2005年该市7岁男孩身高的95%置信区间为(122.01,122.99)。

三、最佳选择题

1.C 2.E 3.E 4.A 5.E 6.A 7.E 8.B

四、综合分析题

1.解:由于该样本为小样本,故用公式XSX估计总体均数95%置信区间为(8.27, 10.03)mm/h;用公式X2.797SX估计总体均数99%置信区间为(7.96, 10.34)mm/h。 输出结果

Descriptives

红细胞沉降率

Mean

95% Confidence Interval for Mean

5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range

Interquartile Range

Upper Bound Lower Bound

Statistic 9.1481 8.2697 10.0266 9.1795 9.4288 4.529 2.12816

5.01 12.68 7.67 2.73

Std. Error

.42563

4-11

第四章 定量资料的统计描述

Skewness Kurtosis

-.250 -.429

.464 .902

Descriptives

红细胞沉降率

Mean

99% Confidence Interval for Mean

5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range

Interquartile Range Skewness Kurtosis

Upper Bound Lower Bound

Statistic 9.1481 7.9576 10.3386 9.1795 9.4288 4.529 2.12816

5.01 12.68 7.67 2.73 -.250 -.429

Std. Error

.42563

.464 .902

2.解:①抽样误差为1.82;②由于该样本为大样本, 故用公式XZ/2SX估计正常人ET含量的95%置信区间为(77.43, 84.57)ng/L。 输出结果

Descriptives

血浆内皮素

Mean

95% Confidence Interval for Mean

5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range

Interquartile Range

Upper Bound Lower Bound

Statistic 80.9891 77.3771 84.6010 80.8639 79.5837 331.362 18.20334 34.02 129.20 95.17 21.75

Std. Error 1.82033

4-12

第四章 定量资料的统计描述

Skewness Kurtosis .182 .140 .241 .478

3.解:①由于两样本均为小样本, 故用公式Xt0.05/2,SX估计总体均数95%置信区间,肺心病组血液二氧化碳分压的95%置信区间为(7.86 , 13.10)kpa;慢性支气管炎合并肺气肿组血液二氧化碳分压的95%置信区间为(5.41 , 6.83)kpa。

②由于方差不齐,应当选择方差不齐时的结果。两组患者的血液二氧化碳分压差值的95%置信区间为(1.66, 7.05)kpa,该区间不包含0,可以认为肺心病患者与慢性支气管合并肺气肿患者的均数不同,肺心病患者较高。 输出结果

Descriptives

组别

二氧化碳压

肺心病组

Mean 95% Confidence Interval for Mean

慢性支气管炎合并肺气肿组

Upper Bound

5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range

Interquartile Range Skewness Kurtosis Mean 95% Confidence Interval for Mean

Upper Bound

5% Trimmed Mean Median 4-13

6.8304 6.1266 6.0160

Lower Bound

5.4151

13.0964 10.2266 10.3473 38.444 6.20035

1.59 24.30 22.71 7.13 .615 -.030 6.1228

.472 .918 .33809

Lower Bound

7.8600

Statistic 10.4782

Std. Error 1.26564

第四章 定量资料的统计描述

Group Statistics

组别 二氧化碳压

·肺心病组 慢性支气管炎合并肺气肿组 N 24 20 Mean 10.4782 6.1228 Std. Deviation 6.20035 1.51198 Std. Error Mean 1.26564 .33809

Variance Std. Deviation Minimum Maximum Range

Interquartile Range Skewness Kurtosis

2.286 1.51198

2.93 9.25 6.32 1.78 -.081 .192

.512 .992

Independent Samples Test

Levene's Test for Equality 二氧 化碳压 Equal variances assumed Equal variances not assumed 3.325 26.238 .003 4.35547 1.31002 1.66387 7.04706 17.431 .000 3.061 42 .004 4.35547 1.42290 1.48394 7.22700 Lower Upper F Sig. t df Mean Sig. Difference Std. Error Difference of Variances t-test for Equality of Means 95% Confidence Interval of the Difference 第八章 t检验 【习题解析】

一、思考题

1.理论根据是小概率事件和小概率反证法。P值表示H0成立时,出现等于及大于(或等于及小于)现有样本统计量的概率。P0.05则表示在H0成立的前提下,得到现有样本统计量的概率为小概率事件,所以拒绝H0。

4-14

第四章 定量资料的统计描述

2.t检验中是选择单侧检验还是双侧检验,需要根据专业知识来确定。例如,根据专业知识能确定未知总体均数不会大(小)于标准值0(单样本t检验),则可用单侧检验,否则,采用双侧检验。

3.配对t检验的应用条件是资料为配对设计,且数据差值服从正态分布。 4.理论上讲应取得大一些,如0.10或0.20,目的是减少犯II型错误的概率;在实际应用中,常取0.10。

5.变量变换的目的在于使变换后的资料满足正态分别或方差齐性等条件,便于进一步的统计分析。

6.可以,大样本两组均数的Z检验是两组均数比较t检验的近似。

二、案例辨析题

该医生的分析结果是错误的。正确作法应是分别将甲、乙两药各自治疗前后的血沉值作差值,比较两组差值的均值是否有差别,具体步骤如下:

(1) 正态性检验

分别对甲、乙两种药物治疗前后的血沉差值d1、d2进行正态性检验。

0.3601.334 1.96甲药: ZSKEW0.0050.6871.96 ZKURT0.2321.334 1.96乙药: ZSKEW0.3690.6871.96 ZKURT故,甲药、乙药两组资料的差值d1、d2均服从正态分布。 (2) 方差齐性检验

1) 建立检验假设,确定检验水准

2H0: 122,两差值总体方差相等

2H1: 122,两差值总体方差不等

0.10

2)计算检验统计量

S12(较大)1.9322F21.134 2S2(较小)1.814v1n111019,v2n211019

3) 确定P值,作出统计推断

查F界值表(附表4),得P0.10,按0.10的水准,不拒绝H0,差异不

4-15

第四章 定量资料的统计描述

具有统计学意义,尚不能认为两差值总体方差不等。

(3) 以差值d1、d2为资料,作两组均值t检验 1) 建立检验假设,确定检验水准

H0:12,即甲、乙两种药物的疗效无差别 H1:12,即甲、乙两种药物的疗效有差别

0.05

2) 计算检验统计量

tX1X22SC(11)n1n25.83.291.93291.81411()101021010223.10

vn1n2218

3) 确定P值,作出统计推断 查t界值表(附表3),得0.050.1P,按0.5水准,拒绝H0,接受H1,

差异具有统计学意义,可认为甲、乙两种药物的疗效有差别。由于乙种药物治疗前后血沉值的差值较大(均数为5.8),故乙药物治疗效果要好于甲药。

输出结果

Descriptive StatisticsNStatistic10101010SkewnessStatisticStd. Error-.005.687.369.687KurtosisStatisticStd. Error-.3601.334-.2321.334g甲药乙药dValid N (listwise)dValid N (listwise) Std. ErrorMean.61101.57349Group Statisticsg甲药乙药N1010Mean3.20005.8000Std. Deviation1.932181.81353d 4-16

第四章 定量资料的统计描述

Independent Samples TestLevene'sTest forEquality ofVariancest-test for Equality of Means95% ConfidenceInterval of theDifferenceLowerUpper-4.36055-.83945FdEqualvariancesassumedEqualvariancesnotassumed.006Sig..938t-3.103df18Sig.(2-tailed).006MeanDifference-2.60000Std. ErrorDifference.83799-3.10317.928.006-2.60000.83799-4.36105-.83895 三、最佳选择题

1.E 2.C 3.C 4.B 5.E 6.E 7.C

四、综合分析题

1. 解:本题应进行单样本t检验,可按如下步骤完成:

(1) 资料的正态性检验

ZSKEW0.3120.5641.96,ZKURT1.2471.0911.96

故资料服从正态分布。 (2) 单样本t检验

1) 建立检验假设,确定检验水准

H0:72,即该山区成年男子的脉搏与一般成年男子脉搏无差别

H1:72,即该山区成年男子的脉搏与一般成年男子脉搏有差别

0.05

2) 计算检验统计量

由原始资料计算得:X73.69,S2.983,于是

tXX073.69722.27 SXSn2.98316vn116115

3) 确定P值,作出统计推断 查t界值表(附表3),得00.2P00.5,按0拒绝H0,接受H1,.05水准,

差异有统计学意义,可以认为该山区成年男子脉搏与一般成年男子脉搏有差别。 输出结果

4-17

第四章 定量资料的统计描述

Descriptive StatisticsNStatistic1616SkewnessStatisticStd. Error.312.564KurtosisStatisticStd. Error1.2471.091xValid N (listwise) One-Sample StatisticsNx16Mean73.69Std. Deviation2.983Std. ErrorMean.746 One-Sample TestTest Value = 7295% ConfidenceInterval of theDifferenceLowerUpper.103.28xt2.263df15Sig. (2-tailed).039MeanDifference1.688

2.解:本题应采用配对t检验,完成步骤如下:

(1) 分别作甲、乙两药治疗前后差值d1、d2的正态性检验 由案例辨析题中的结论可知,资料d1、d2均服从正态分布。 (2) 对甲、乙两药分别作配对t检验 甲药:

1) 建立检验假设,确定检验水准

H0:d10,即甲药治疗前后血沉值无差别 H1:d10,即甲药治疗前后血沉值有差别

0.05

2) 计算检验统计量

d1dn121323.20 10Sd1td(d1)2n1.93

n1dd1d13.203.205.25 SdSd1Sdn1.93100.6114-18

第四章 定量资料的统计描述

vn19

3) 确定P值,作出统计推断

查t界值表(附表3),得P0.001,按0.05水准,拒绝H0,差异有统计学意义,即甲药降低血沉有效。 乙药:

1) 建立检验假设,确定检验水准

H0:d20,即乙药治疗前后血沉值无差别

H1:d20,即乙药治疗前后血沉值有差别

0.05

2) 计算检验统计量

d2dn222585.80 10Sd2 td(d2)2n1.81

n1dd2d25.8010.13 SdSd2Sdn1.81102vn19

3) 确定P值,作出统计推断

查t界值表(附表3),得P0.001,按0.05水准,拒绝H0,差异有统计学意义,即乙药降低血沉有效。 输出结果

Paired Samples Statisticsg甲药乙药Mean8.705.509.603.80N10101010Std. Deviation2.4063.1001.8381.317Std. ErrorMean.761.980.581.416Pair1Pair1治疗前治疗后治疗前治疗后 4-19

第四章 定量资料的统计描述

Paired Samples TestPaired Differences95% ConfidenceInterval of theDifferenceStd.Std. ErrorDeviationMeanLowerUpper1.9321.814.611.5731.8184.5034.5827.097g甲药乙药MeanPair1Pair1治疗前 - 治疗后治疗前 - 治疗后3.2005.800t5.23710.114df99Sig.(2-tailed).001.000 3.解:本题资料为抗体滴度数据,一般服从对数正态分布,宜采用成组设计的两小样本几何均数比较的t检验。

(1) 将原始数据取常用对数值后分别记为X1、X2 (2) 正态性检验

用SPSS统计软件算得变量X1、X2的正态性检验结果。

X1X2 ::

ZSKEW0.1040.6611.96

ZKURT0.6411.279

1.96ZSKEW0.2160.7171.961.0411.400 1.96 ZKURT故,X1,X2两组资料均服从正态分布。 (3) 方差齐性检验

1) 建立检验假设,确定检验水准

2122H0:,两总体方差相等 2122H1:,两总体方差不等

0.10

2) 计算检验统计量

n111,X12.79,S10.45;n29,X22.27, S20.23,于是

S12(较大)0.452F23.83

S2(较小)0.232v1n1111110,v2n21918

3) 确定P值,作出统计推断

查F界值表(附表4),得P0.10。按0.10水准,拒绝H0,差异有统计学意义,故可认为两总体方差不相等。

(4) 两样本均数(X1,X2)的t检验

4-20

第四章 定量资料的统计描述

1) 建立检验假设,确定检验水准

H0: 两总体几何均数的对数值相等 H1: 两总体几何均数的对数值不等

0.05

2) 计算检验统计量

tX1X2SSn1n221222.792.270.450.231192223.34

SSn11n21n1n2n11n21 3) 确定P值,作出统计推断

v222(SXS)X21S4X1S4X22S12S2nn212122220.4520.2321192220.450.23119111912215.4415查t界值表(附表3),得002.005.P。按05.水准,拒绝H0,接受H1,

差异有统计学意义,可认为两组的平均效价有差别。 输出结果

Descriptive StatisticsNStatistic111199SkewnessStatisticStd. Error-.104.661.216.717KurtosisStatisticStd. Error-.6411.279-1.0411.400g标准株水生株logxValid N (listwise)logxValid N (listwise) Std. ErrorMean.13628.07844Group Statisticsg标准株水生株N119Mean2.79362.2676Std. Deviation.45200.23533logx 4-21

第四章 定量资料的统计描述

Independent Samples TestLevene'sTest forEquality ofVariancest-test for Equality of Means95% ConfidenceInterval of theDifferenceLowerUpper.17511.87698FlogxEqualvariancesassumedEqualvariancesnotassumed5.063Sig..037t3.149df18Sig.(2-tailed).006MeanDifference.52604Std. ErrorDifference.167043.34515.585.004.52604.15725.19197.86011第十章 二项分布和Poisson分布及其应用

【习题解析】

一、思考题

1. Bernoulli试验的适用条件如下:①每次试验只会发生两种互斥结果之一,即两种互斥结果的概率之和恒等于1;②在相同的试验条件下,每次试验产生某种结果(如“阳性”)的概率固定不变;③重复试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。

2. Poisson分布的性质如下:①总体均数与总体方差2相等;②当n很大,而

很小,且n为常数时,Poisson分布可看作是二项分布的极限分布;③当增大时,Poisson分布渐近正态分布,一般而言,20时,Poisson分布资料可作为正态分布处理;④Poisson分布具备可加性,即对于服从Poisson分布的m个互相独立的随机变量X1,X2,K,Xm,它们之和也服从Poisson分布,且其均数为这m个随机变量的均数之和;⑤的大小决定了Poisson分布的图形特征。 3. 随机变量X服从二项分布,是指在n重Bernoulli试验中,发生某种结果(如“阳性”)的次数X0,1,2,K,n的一种概率分布,其恰好发生X个阳性的概率为

n!P(X)X(1)nX(X0,1,2,K,n) ,且总有

X!(nX)!P(X)1。而随机

x0n变量X服从Poisson分布,是指X满足:①取值范围为0,1,2,K;②相应的概率

eX为P(X) ,且总有

X!P(X)1。在总体率很小,而样本含量(试验

x0次数)n趋向于无穷大时,二项分布近似于Poisson分布。因此, Poisson分布可

4-22

第四章 定量资料的统计描述

看作是二项分布的一种极限情况,可用来描述小概率事件的发生规律。 4. 二项分布、Poisson分布和正态分布间的联系为:①在n很大,而很小,且

n为常数时,二项分布的极限分布为Poisson分布;②在n较大、不接近0也不接近1时,二项分布B(n,)近似正态分布N(n,n(1)),而相应的样本率p的分布也近似正态分布N(,P)。③当增大时,Poisson分布渐近正态分布,一般而言,≥20时,Poisson分布资料可作为正态分布处理。

二、案例辨析题

不正确。溶液中的细菌数可以认为服从Poisson分布,当其“单位容积”所含细菌数X>50时,可采用正态近似法估计总体均数的(1-)置信区间。但本例溶液的“单位容积”为10ml,应先用正态近似法估计出该溶液每10ml所含细菌数的95%置信区间,再除以10即得到每1ml所含细菌数的95%置信区间。由式(10.16)可得,每10ml该溶液所含细菌数的95%置信区间为6501.96650,故每1ml该溶液所含细菌数的95%置信区间为651.96650/10。

三、最佳选择题

1. A

四、综合分析题

1. 解:本例可认为治疗有效人数X服从二项分布,根据研究目的,选用单侧检验。其假设检验步骤为:

(1) 建立检验假设,确定检验水准

H0:0.85,该药新剂型的疗效等于常规剂型 H1:0.85,该药新剂型的疗效优于常规剂型 单侧0.05 (2) 计算概率

本例,n20,0.85,k19,

2. C

3. B

4. E

5. C

6. E

7. E

8. C

4-23

第四章 定量资料的统计描述

PP(X19)P(19)P(20)20!20!0.8519(10.85)20190.8520(10.85)2020 19!(2019)!20!(2020)!0.13680.03880.1756(3) 作出统计推断

由结果可见P0.05,按0.05水准,不拒绝H0,差异无统计学意义,尚不能认为该药新剂型能增加疗效。

2. 解:本例中,乳腺癌患病人数可认为服从Poisson分布,两个样本的观察单位数不相等,以10000人为一个单位,则n12,n21。设甲、乙两地妇女乳腺癌的患病率分别为1和2,其假设检验步骤为:

(1) 建立检验假设,确定检验水准 H0:12,两地妇女乳腺癌患病率相等 H1:12,甲地妇女乳腺癌患病率高于乙地 单侧0.05 (2) 计算检验统计量

4115211.095 Z41152212(3) 作出统计推断

查t界值表(附表3 ),得0.10P0.20,按0.05水准,不拒绝H0,

差异无统计学意义,尚不能认为甲地妇女乳腺癌的患病率高于乙地。

2第十一章 检验

【习题解析】

一、思考题

1. 2检验的基本思想:在H0成立的条件下,推算出各个格子的理论频数T,然

(AT)2后利用理论频数T和实际频数A构造统计量,,反映实际频

T22数与理论频数的吻合程度。若无效假设H0成立,则各个格子的A与T相差不应该很大,即2统计量不应该很大。A与T相差越大,2值越大,相对应的P值

4-24

第四章 定量资料的统计描述

越小,当P,则越有理由认为无效假设不成立,继而拒绝H0,作出统计推断。由于格子越多,2值也会越大,因而考虑2值大小的意义时,应同时考虑格子数的多少(严格地说是自由度的大小),这样2值才能更准确地反映A与T的吻合程度。

2检验可用于:独立样本两个或多个率或构成比的比较,配对设计两样本率的比较,频数分布的拟合优度检验,线性趋势检验等。 2. 对不同设计类型的资料,2检验的应用条件不同: (1) 独立样本四格表的2检验

1) 当n40,且T5时,用非连续性校正的2检验。

(adbc)2n(AT)22或

(ab)(cd)(ac)(bd)T22) 当n40,且有1T5时,用连续性校正的2检验或用四格表的确切概率法。

(AT0.5)2(adbc/n22)n2 或 

T(ab)(cd)(ac)(bd)23) 当n40或T1时,用四格表的确切概率法。 (2) 独立样本RC列联表2检验的专用公式为:

A2n(1)

nRnC21) 不宜有1/5以上格子的理论频数小于5,或有1个格子的理论频数小于1。 2) 结果为有序多分类变量的R×C列联表,在比较各处理组的平均效应有无差别时,应该用秩和检验或Ridit检验。

(3) 配对四格表的2检验

2(bc)1) 当bc40时,。

bc22(bc1)2) 当bc40时,需作连续性校正,2。

bc

3. 四格表的Z检验和2检验的联系,体现在:能用四格表Z检验进行两样本率比较的资料,都可以用2检验。四格表的双侧Z检验与2检验是完全等价的,

4-25

第四章 定量资料的统计描述

22两个统计量的关系为Z2=2,相对应的界值的关系为Z0.05/20.05,1。

4. 拟合优度2检验是根据样本的频数分布检验其总体是否服从某特定的理论分布。按照该理论分布计算的频数称为理论频数;从样本观察到的频数称为实际频数。利用2检验,推断实际频数与理论频数的吻合程度。

5. 2检验的理论是基于2分布,但是只有在大样本时检验统计量才近似服从

2分布,才能使用2检验公式。如四格表资料,若n40,且有1T5时,尚可以校正检验统计量使其近似服从2分布;当n40时,这种近似性就很差,

2检验就不适用了,只能用确切概率法。

二、案例辨析题

该研究的试验设计和统计分析方法均存在不合理的地方。

试验设计方面:样本含量偏小。该研究者在临床试验设计之初,就应该严格按照临床试验设计要求,进行样本含量的估计,以保证足够的检验效能。此外,由于急性细菌性下呼吸道感染,某些症状疗效的判断可能易受主观因素的影响,因此应采用盲法。

统计分析方面:由于样本含量小于40,不能采用2检验,应采用四格表的确切概率法。具体步骤为:

1. 建立检验假设,确定检验水准

H0:12,即两种抗生素治疗急性细菌性下呼吸道感染的有效率相同 H1:12,即两种抗生素治疗急性细菌性下呼吸道感染的有效率不同

0.05

2. 计算概率:在周边合计不变的条件下,以最小行、列合计所对应的格子为基础,其取值的变动范围为从0到最小周边合计。本例中,将甲药治疗无效对应的格子的取值从0增至10,可得到11个四格表,并按第1个格子的值由小到大排列,结果见下表。

表11-4 Fisher确切概率法计算用表

序号i 1 2

有效

4 16 5

4-26

无效 10 0 9

Pi

0.00003 0.00107

第四章 定量资料的统计描述

3 4 5 6 7 8 9* 10 11

* 表11-1数据

15 6 14 7 13 8 12 9 11 10 10 11 9 12 8 13 7 14 6 1 8 2 7 3 6 4 5 5 4 6 3 7 2 8 1 9 0 10

0.01199 0.06397 0.18191 0.29105 0.26680 0.13860 0.03898 0.00533 0.00027

按下式计算各四格表的概率Pi,结果见表11-4最后一列。

Pi(ab)!(cd)!(ac)!(bd)!

a!b!c!d!n!3. 确定P值,作出统计推断

将小于等于原四格表概率的所有四格表对应的概率相加,得到双侧概率

P双侧P1P2P3P9P10P110.000030.001070.011990.038980.005330.00027 0.05767按0.05水准,不拒绝H0,差异无统计学意义,尚不能认为两种抗生素治疗急性细菌性下呼吸道感染的疗效有差别。

该结果与该研究者的结论相反。因此,在统计分析时应注意所选方法的应用条件。

三、最佳选择题

1. A 2. E 3. D 4. E 5. D 6. A 7. E 8. B 9. B 10. C

四、综合分析题 1. 解:

(1) 资料整理后的表格为

4-27

第四章 定量资料的统计描述

表11-5 A、B两种抗生素治疗单纯性尿路感染的疗效

组别 抗生素A 抗生素B 合计

有效 37 29 66

无效 5 13 18

合计 42 42 84

有效率(%) 88.10 69.05 78.57

(2) 该研究属于完全随机设计,所得资料为二分类资料。

(3) 由于该资料为分类资料,欲比较A、B两药的有效率,宜选用独立样本四格表的2检验。具体步骤为:

1) 建立检验假设,确定检验水准

H0:12,即两种抗生素治疗单纯性尿路感染的有效率相同 H1:12,即两种抗生素治疗单纯性尿路感染的有效率不同

0.05

2) 计算检验统计量

本题中最小行、列合计对应的格子为采用抗生素A治疗无效者或抗生素B治疗无效者,其理论频数T2421895,故采用四格表专用公式: 84(adbc)2n(3713529)284(ab)(cd)(ac)(bd)(375)(2913)(3729)(513) 4.525 1

3) 确定P值,作出统计推断

查2界值表(附表9),得P0.05,按0.05水准,拒绝H0,接受H1,差异有统计学意义,可以认为两种抗生素治疗单纯性尿路感染的疗效不同,A药的有效率高于B药。 输出结果

4-28

第四章 定量资料的统计描述

分组变量 * 治疗效果 Crosstabulation治疗效果有效无效37588.1%11.9%291369.0%31.0%661878.6%21.4%分组变量A药组B药组TotalCount% within 分组变量Count% within 分组变量Count% within 分组变量Total42100.0%42100.0%84100.0% Chi-Square TestsValue4.525b3.4654.6554.47184df1111Asymp. Sig.(2-sided).033.063.031.034Exact Sig.(2-sided)Exact Sig.(1-sided)Pearson Chi-SquareaContinuity CorrectionLikelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases.061.030a. Computed only for a 2x2 tableb. 0 cells (.0%) have expected count less than 5. The minimum expected count is 9.00. 2. 解:

(1) 资料整理后的表格为

表11-6 两种CT对煤工尘肺肺气肿的检查结果

螺旋CT 有 无 合计

HRCT

有 73 7 80

无 2 14 16

合计 75 21 96

(2) 该研究属于配对设计,所得数据为分类资料。

(3) 该资料为分类资料,欲比较螺旋CT和HRCT在煤工尘肺肺气肿检出方面有无差异,宜选用配对四格表的2检验。

具体步骤为:

1) 建立检验假设,确定检验水准

H0:BC,即两种CT检出煤工尘肺肺气肿的结果无差异 H1:BC,即两种CT检出煤工尘肺肺气肿的结果有差异

4-29

第四章 定量资料的统计描述

0.05

2) 计算检验统计量

本题bc940,应采用配对四格表2检验的校正公式:

(bc1)2(271)21.778

(bc)(27)2 1

3) 确定P值,作出统计推断

查2界值表(附表9),得P0.05,按0.05水准,不拒绝H0,差异无统计学意义,尚不能认为两种CT煤工尘肺肺气肿的检出率有差异。 输出结果

螺旋CT检查结果 * 高分辨率CT检查结果 CrosstabulationCount高分辨率CT检查结果肺气肿无肺气肿螺旋CT检查结果TotalChi-Square TestsValueMcNemar TestN of Valid Cases96Exact Sig.(2-sided).180aTotal752196肺气肿无肺气肿7378021416a. Binomial distribution used. 3. 解:本题资料为分类资料,欲比较3种方案治疗单纯性肥胖的有效率有无差异,宜选用独立样本RC列联表的2检验。具体步骤为:

1) 建立检验假设,确定检验水准

H0:123,即3种方案治疗单纯性肥胖的有效率相同 H1:3种方案治疗单纯性肥胖的有效率不全相同

0.05

2) 计算检验统计量

最小理论频数T9.33,故直接将数据带入独立样本RC列联表2检验的公式:

4-30

第四章 定量资料的统计描述

A2n(1)nRnC235252272132302102120(1)

4092402840924028409240284.565( (R1)C1)(31)(2 13) 确定P值,作出统计推断

查2界值表(附表9),得0.10P0.25,按0.05水准,不拒绝H0,差异无统计学意义,尚不能认为3种方案治疗单纯性肥胖的有效率不同。 输出结果

方案 * 疗效 Crosstabulation疗效有效方案甲方案乙方案丙方案TotalCount% within 方案Count% within 方案Count% within 方案Count% within 方案3587.5%2767.5%3075.0%9276.7%无效512.5%1332.5%1025.0%2823.3%Total40100.0%40100.0%40100.0%120100.0% Chi-Square TestsValue4.565a4.8111.732120df221Asymp. Sig.(2-sided).102.090.188Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid Casesa. 0 cells (.0%) have expected count less than 5. Theminimum expected count is 9.33. 4. 解:

(1) 该资料为分类资料,欲比较两药治疗胃溃疡的疗效构成比有无差异,宜选用独立样本RC列联表的2检验。先将资料整理成下表形式:

表11-7 两种药物治疗治疗胃溃疡的疗效

组别

痊愈

显效

进步

无效

合计

4-31

第四章 定量资料的统计描述

试验组 对照组 合计

20(58.82) 16(47.06) 36

6(17.65) 4(11.76) 10

4(11.76) 8(23.53) 12

4(11.76) 6(17.65) 10

34(100) 34(100) 68

假设检验的具体步骤为: 1) 建立检验假设,确定检验水准

H0:两药治疗胃溃疡的疗效构成比相同 H1:两药治疗胃溃疡的疗效构成比不同

0.05

2) 计算检验统计量

最小理论频数T5,故直接将数据带入独立样本RC列联表2检验的公式:

A2n(1)nRnC220262424216242826268(1)343634103412341034363410341234102.578 (R1)C(1)(21)(4 13) 确定P值,作出统计推断

查2界值表(附表9),得0.25P0.50,按0.05水准,不拒绝H0,差异无统计学意义,尚不能认为两药治疗胃溃疡的疗效构成比不同。

(2) 若比较两药有效率有无差异,宜选用独立样本四格表的2检验。按题意将资料整理成下表形式:

表11-8 两种药物治疗治疗胃溃疡的疗效

组别 试验组 对照组 合计

有效 26 20 46

无效 8 14 22

合计 34 34 68

(3) 若比较两药治疗胃溃疡的疗效大小,宜选用秩和检验。因为本题中治疗效果呈等级变化,由于2检验未考虑“疗效”的等级顺序,因此经2检验只能说明各处理效应的构成比是否有差别。而秩和检验考虑了“疗效”的等级顺序,

4-32

第四章 定量资料的统计描述

用于比较疗效大小比2检验更合理。 输出结果

分组 * 治疗效果 Crosstabulation治疗效果显效进步6417.6%11.8%4811.8%23.5%101214.7%17.6%分组试验组对照组TotalCount% within 分组Count% within 分组Count% within 分组痊愈2058.8%1647.1%3652.9%无效411.8%617.6%1014.7%Total34100.0%34100.0%68100.0% Chi-Square TestsValue2.578a2.6101.61768df331Asymp. Sig.(2-sided).461.456.204Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid Casesa. 0 cells (.0%) have expected count less than 5. Theminimum expected count is 5.00. 以上是问题(1)的SPSS分析过程。问题(2)的SPSS分析过程请参见本章综合分析题的第1题,问题(3)的SPSS分析过程请参见第十二章相关内容。

第十三章 双变量关联性分析

【习题解析】

一、思考题

1.双变量关联性分析的目的在于推断从某一总体中随机抽取的同一份样本观测出的两个变量间是否存在关联性,以及这种关联性的密切程度如何。关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,是否确为因果关系还需结合专业知识、因果逻辑上的时间先后顺序等作进一步判定。 2.22列联表的关联性分析与两样本率比较的2检验的数据形式非常相似,2检验的公式以及应用条件也完全相同。但区别在于:两样本率比较的2检验是从两个总体中分别抽取样本,两样本有各自的频数分布,所检验的是两总体的率是否相同;而22列联表的关联性分析是从同一个总体中进行随机抽样,对样本中的每个个体考察其两个变量的关系,检验两个分类变量之间是否存在关联性或者说是否独立。

4-33

第四章 定量资料的统计描述

3.P值越小,说明越有理由拒绝H0,犯I型错误的概率越小。相关系数r经假设检验有统计学意义且得到非常小的P值,表示有足够的理由认为两变量总体相关系数0,只能定性回答两变量是否存在直线相关,并非意味着其直线相关的强度。若要定量回答相关性的强弱,需结合样本相关系数r的大小和总体相关系数的置信区间来说明。

4.区别:①Pearson积矩相关适用于二元正态分布资料,Spearman秩相关适用于不服从正态分布、总体分布未知、存在极端值或原始数据用等级表示的资料。②Pearson积矩相关是基于原始数据进行统计分析,而Spearman秩相关是将原始数据进行秩变换后进行统计分析。③Pearson积矩相关是参数检验方法,而Spearman秩相关不以特定的总体分布为前提,为非参数检验的方法。联系:①两种相关系数的取值都介于-1和1之间,无单位,小于 0 为负相关,大于0为正相关。②用原始数据的秩次来计算Pearson相关系数,得到的即为Spearman秩相关系数。

二、案例辨析题

该案例是对同一样本的两个分类变量之间的关联性进行分析,2检验的计算方式不变,结果仍为84.533,但下结论时最好不要从“不同年龄的AKP酶反应活性不同”演绎到“两变量有关系”,而应为“按=0.05水准,拒绝H0,可认为年龄与AKP酶反应活性之间有关”。此外,可结合列联系数说明其关联强度,r22n84.5330.481。

84.533281由于年龄与AKP酶反应活性都是有序分类变量,可考虑进行Spearman秩相关分析,得rs0.487,单侧P0.001,可认为随着年龄的增加,AKP酶反应活也降低。

三、最佳选择题

1. B 2. C 3. C 4.D 5.A 6.B 7.B 8.C 9. D

四、综合分析题 1.解:

4-34

第四章 定量资料的统计描述

(1) 由散点图(略)结合两个变量的正态性检验,可进行直线相关分析。 由式(13.1)分别算出

lxxx2(x)2/n27.6

lyyy2(y)2/n568.9

lxyxy(xy)/n114.8

rlxylxylyy0.916

但需进行假设检验以推断总体上这种相关是否存在。 (2) 检验相关是否具有统计学意义 1) 建立检验假设,确定检验水准

H0:0,即血浆清蛋白含量及血红蛋白含量之间无直线相关关系

H1:0,即血浆清蛋白含量及血红蛋白含量之间有直线相关关系

0.05

2) 计算检验统计量 由式(13.4)和式(13.5)得

trr1rn220.91610.91610226.458

n28

3) 确定P值,作出统计推断

查t界值表(附表3),得P0.001,按=0.05水准,拒绝H0,接受H1,可以认为该病成年男性患者血浆清蛋白含量与血红蛋白含量呈正相关关系。 输出结果

4-35

第四章 定量资料的统计描述

130125血红蛋白含量 120115110105343536373839 血浆清蛋白含量 Tests of NormalityKolmogorov-SmirnovStatisticdfSig..17610.200*.20410.200*a血浆清蛋白(X)血红蛋白(Y)Shapiro-WilkStatisticdf.90210.92310Sig..232.384*. This is a lower bound of the true significance.a. Lilliefors Significance Correction Correlations血浆清蛋白(x)1血红蛋白(y).916**.0001010.916**1.0001010血浆清蛋白(x)血红蛋白(y)Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N**. Correlation is significant at the 0.01 level (2-tailed). (3) 结果解释

通过对血浆清蛋白和血红蛋白两变量的正态性检验可以看出:两者的P值分别为0.200,0. 200,可以认为两变量都服从正态分布,故进行Pearson积矩相关分析。两者相关系数为0.916,P0.001,按0.05水准拒绝H0,可以认为该病成年男性患者血浆清蛋白和血红蛋白两变量呈正相关关系。

2.解:此问题属于配对设计列联表的关联性分析。

(1) 建立检验假设,确定检验水准

H0:甲法和乙法之间互相独立

4-36

第四章 定量资料的统计描述

H1:甲法和乙法之间互相关联

0.05

(2) 计算检验统计量

将表13-3中数据代入式(11.5)得:

(adbc)2n(181598)2505.059

(ab)(cd)(ac)(bd)2723262421

(3) 确定P值,作出统计推断

查2界值表(附表9),得0.01H1,可以认为甲法和乙法之间互相关联。

进一步计算Pearson列联系数,r输出结果

22n5.0590.303

5.05950乙法 * 甲法 Crosstabulation甲法阴性乙法阴性阳性TotalCountExpected CountCountExpected CountCountExpected Count1511.0913.02424.0阳性812.01814.02626.0Total2323.02727.05050.0 Chi-Square TestsValue5.059b3.8625.1434.95750df1111Asymp. Sig.(2-sided).025.049.023.026Exact Sig.(2-sided)Exact Sig.(1-sided)Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases.046.024a. Computed only for a 2x2 tableb. 0 cells (.0%) have expected count less than 5. The minimum expected count is11.04. 4-37

第四章 定量资料的统计描述

Symmetric MeasuresValue.303.318.31850Asymp.Std. Errora.134.134Approx. TbApprox. Sig..0252.324.024c2.324.024cNominal by NominalInterval by IntervalOrdinal by OrdinalN of Valid CasesContingency CoefficientPearson's RSpearman Correlationa. Not assuming the null hypothesis.b. Using the asymptotic standard error assuming the null hypothesis.c. Based on normal approximation.

3.解:

(1) 本题为等级资料,应采用Spearman秩相关分析,并用单侧检验。

表13-5 404例流行性出血热患者的病情转化情况

早期分度

x 轻度 中度 重度 合计 秩次范围 平均秩次qi

最后定型 y

轻型 98 5 1 104 1~104 52.5

中型 20 136 2 158 105~262 183.5

重型 1 21 120 142 263~404 333.5

合计 119 162 123 404

秩次范围 1~119 120~281 282~404

平均秩次

pi 60 200.5 343

  

  

 

将n对实测值xi与yi(i=1,2,3,…,n)分别从小到大编秩(相同秩次取平均值),以pi表示xi的秩次,qi表示yi的秩次,将pi、qi直接替换式(13.1)中的x和y,即用秩次作为分析变量值,直接计算Pearson积矩相关系数。

lpppi2(pi)2/n4845143 lqqq2(q)2/n4833900

/ lpqpq(pq)n43136 4rslpqlpplqq0.891

但需进行假设检验以推断总体上这种相关是否存在。

(2) 对总体秩相关系数s作假设检验,本例中rs=0.891,n=404>50,采用式(13.4)和式(13.5)作t检验。

1)建立检验假设,确定检验水准

4-38

第四章 定量资料的统计描述

H0:s0,即流行性出血热的早期分度和最后定型无相关关系

H1:s0,即流行性出血热的早期分度和最后定型有正相关关系

单侧0.05 2) 计算检验统计量 由式(13.4)和式(13.5)得

trs1rsn220.89110.8914042239.349

n2402

3) 确定P值,作出统计推断

查t界值表(附表3),得P0.001,按0.05水准,拒绝H0,接受H1,可以认为流行性出血热的早期分度和最后定型存在正相关关系,随着早期分度的增高其最后定型加重。 输出结果 CorrelationsSpearman's rho早期分度Correlation CoefficientSig. (1-tailed)NCorrelation CoefficientSig. (1-tailed)N早期分度最后定型1.000.891**..000404404.891**1.000.000.404404最后定型**. Correlation is significant at the 0.01 level (1-tailed). (3) 结果解释: Spearman秩相关系数rs0.8910,P0.001,按0.05水准,拒绝H0,接受H1,可以认为流行性出血热的早期分度和最后定型存在正相关关系,随着早期分度的增高其最后定型加重。

第十四章 直线回归分析

【习题解析】

一、思考题

1.建立直线回归方程的步骤:①绘制自变量与应变量的散点图,观察是否有可疑的离群值及两变量是否有直线趋势;②利用最小二乘法计算回归系数b及截距a,得到样本回归方程;③对回归系数进行假设检验。在此过程中应当注意考察

4-39

第四章 定量资料的统计描述

资料是否满足模型假设条件,即应变量与自变量关系是否为线性、误差是否服从正态分布且方差相等、各观测值是否独立等。通过散点图可以初步考察两变量间是否有直线关系及识别可能的离群值。

2.方差分析的基本思想是将总的变异按照设计和需要分解成2个或2个以上的部分,在对回归系数的假设检验中,将应变量y的变异SS总分解为可以用y与x的直线关系解释的部分SS回和不能用y与x的线性关系解释的部分SS残,如果两变量间直线关系确实存在,回归的均方应大于误差的均方,大到何种程度时可以认为具有统计学意义,可根据SS回与SS残的关系构造检验统计量F,

FMS回MS残SS回/回SS残/残。在0成立的假设下,F服从自由度为回、残的F分布,

可根据F分布曲线下面积确定P值,作出统计推断结论。

3. 区别:①资料要求上:直线相关要求x、y服从双变量正态分布;而直线回归要求y在给定某个x值时服从正态分布,x须为可精确测量和严格控制的值。②应用上:说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明应变量y和自变量x在数量上的依存关系则用直线回归分析。③意义上:相关系数

r说明两变量直线相关的方向与密切程度;回归系数b表示x每改变一个单位时,

y的平均改变量。④计算:rlxy/lxxlyy,blxy/lxx。⑤取值范围:1r1,b。⑥r没有单位,b有单位。

联系:①对于服从双变量正态分布的同一组数据,既可作直线相关分析又可作直线回归分析,计算出的r与b符号一致。②对于同一样本,相关系数与回归系数的假设检验等价。③对于服从双变量正态分布的同一组资料,其相关系数r和回归系数b可以相互换算:r=SSbSx。④用回归可以解释相关,决定系数R2回。

SS总Sy4.有以下方法:方差分析、总体回归系数的t检验、计算总体回归系数的置信区间。若资料服从双变量正态分布,除上述方法外,因为相关系数与回归系数的假设检验等价,还可采用总体相关系数的t检验、计算总体相关系数的置信区间等方法来推断总体回归关系是否成立。

二、案例辨析题

4-40

第四章 定量资料的统计描述

要进行直线回归分析,首先应绘制自变量与应变量的散点图,观察两变量是否有直线趋势。如图14-1所示,两变量散点呈曲线趋势,不宜进行直线回归分析。

2118火箭电泳高度 (mm) 15129630246810

IgA浓度(μg/ml) 图14-1 火箭电泳高度与IgA浓度的关系 ˆ5.3351.599x不正确。对自因此直接用原始数据建立直线回归方程得到y变量进行对数变换,令xlg(x),再观察y与x的散点图,如图14-2所示,可见对数转换后其直线趋势较为明显。

2118火箭电泳高度 (mm) 1512963-0.4-0.20.00.20.40.60.81.0

IgA浓度的对数值 图14-2 火箭电泳高度与IgA浓度对数值的关系

ˆ6.73712.259x,对回归系数进行假设建立y与x的直线回归方程得到y检验,得P0.001,回归方程有统计学意义。进一步检查两次回归的决定系数,直接以IgA浓度为自变量时R2=0.911,而以IgA浓度的对数值为自变量时

4-41

第四章 定量资料的统计描述

R2=0.989,拟合效果更好。此案例强调了直线回归分析之前绘制散点图的重要性。

三、最佳选择题

1.A 2. C 3.B 4.B 5.D 6.B 7.B 8.D

四、综合分析题 1.解:

(1) 建立肺活量y与胸围x的回归方程

1) 作两变量的散点图,以胸围为横坐标,肺活量为纵坐标绘制散点图 (见SPSS结果),散点呈直线趋势,故可进行直线回归分析。 2) 由样本数据计算如下统计量

x81.18667,y2.78133

lxxx2(x)2/n289.73737

lyyy2(y)2/n3.02857

lxyxy(xy)/n26.62227

3) 计算回归系数b及截距a

blxylxx0.09188, a=y-bx=- 04.6781ˆ4.678100.09188x 4) 得直线回归方程为:y(2) 对回归系数进行假设检验

方法一:采用方差分析对回归系数进行假设检验 1) 建立检验假设,确定检验水准

H0:0,即胸围与肺活量之间无直线回归关系 H1:0,即胸围与肺活量之间有直线回归关系

=0.05

2) 计算检验统计量

SS总(yy)2lyy3.02857 ˆ)20.58241 SS残(yy 4-42

第四章 定量资料的统计描述

SS回SS总SS残3.028570.582412.44616

FMS回MS残SS回/回SS残/残2.44616/154.601

0.58241/133) 确定P值,作出统计推断

1回1,2残n213,F(,)F0.01(1,13)9.07,查F界值表(附表4),

12得P0.01,按=0.05水准拒绝H0,回归方程有统计学意义,可以认为女大学生的胸围与肺活量之间有直线回归关系。 方法二:采用t检验对回归系数进行假设检验 1) 建立检验假设,确定检验水准

H0:0,即胸围与肺活量之间无直线回归关系 H1:0,即胸围与肺活量之间有直线回归关系

=0.05

2) 计算检验统计量

SyxSbtbSS残n2lxx0.582410.21166

152Syx0.211660.012435

289.73737b0.091887.389 Sb0.0124353) 确定P值,作出统计推断

13,查t界值表(附表3),得P0.001,按=0.05水准拒绝H0,回归方

程有统计学意义,可认为女大学生的胸围与肺活量之间有直线回归关系。

(3) 计算总体回归系数的95%置信区间

由以上计算结果可知b0.09188,Sb0.012435,13,查t界值表得

t0.05/2,132.160。回归系数的95%置信区间为:

0.091882.1600.012435,0.091882.1600.012435)(0.06502,0.11875)。

2.解:

(1) 以每日吸烟量为横坐标,DNA加合物含量为纵坐标绘制散点图(见SPSS结果),散点呈直线趋势,不存在离群点,故可进行直线回归分析。

4-43

第四章 定量资料的统计描述

(2) 建立DNA加合物含量y与每日吸烟量x的回归方程 由样本数据计算如下统计量

x17.083,y11.5975

lxxx2(x)2/n672.9167

lyyy2(y)2/n242.0240

lxyxy(xy)/n318.9625

计算回归系数b及截距a

blxylxx0.474, aybx3.50 0ˆ3.5000.474x 得直线回归方程为:y采用方差分析对回归系数进行假设检验 1) 建立检验假设,确定检验水准

H0:0,即DNA加合物含量与每日吸烟量之间无直线回归关系 H1:0,即DNA加合物含量与每日吸烟量之间有直线回归关系

=0.05

2) 计算检验统计量

SS总(yy)2lyy242.0240 ˆ)290.8358 SS残(yySS回SS总SS残242.024090.8358151.1882

FMS回MS残SS回/回SS残/残151.1882/116.644

90.8358/103) 确定P值,作出统计推断

1回1,2残n210,查F界值表(附表4),得P0.01,按=050.水准拒绝H0,回归方程有统计学意义,可以认为肺癌患者肺组织中DNA加合物含量与每日吸烟量之间有直线回归关系。 输出结果

4-44

第四章 定量资料的统计描述

2015DNA加合物含量 1050

51015202530

每日吸烟量 ANOVAbModel1Sum ofSquares151.18890.836242.024df11011Mean Square151.1889.084F16.644Sig..002a RegressionResidualTotala. Predictors: (Constant), 吸烟量b. Dependent Variable: 肺组织DNA加合物CoefficientsaUnstandardizedCoefficientsStd.BError3.5002.167.474.116StandardizedCoefficientsBeta.790t1.6154.080Sig..137.00295% ConfidenceInterval for BLowerUpperBoundBound-1.3298.329.215.733Model1(Constant)每日吸烟量a. Dependent Variable: 肺组织DNA加合物

4-45

第四章 定量资料的统计描述

4-46

因篇幅问题不能全部显示,请点此查看更多更全内容