2.3 多元线性回归
当变量Y的影响因素有多个而不止一个时,可以建立多元线性回归模型:
Y=β0 +β1X1 +β2X2+…+βkXk+ε
利用变量Y与X的n组样本数据,按照一定准则,可求得β0 ,β1,β2,…βk的估计值b0, b1,…, bk,建立起样本回归模型:
Y=b0 +b1X1 +b2X2+…+bkXk+ε
例 假设有一个造纸厂的会计部门在估计工厂每月的管理费时,用工人的劳动日数与机器的开工台数作为自变量,用这两个因素对管理费用进行估计。10个月的数据如下表。
-----------------------------------------------------
月份 劳动日数 机器开工 管理费用
X1 台日数X2 Y
--------------------------------------------------
1 45 16 29
2 42 14 24
3 44 15 27
4 45 13 25
5 43 13 26
6 46 14 28
7 44 16 30
8 45 16 28
9 44 15 28
10 43 15 27
------------------------------------------------------------------------
回归方程: Y=b0 +b1X1 +b2X2
将数据代入方程: 29= b0 +45b1 +16b2
24= b0 +42b1 +14b2
27= b0 +44b1 +15b2
25= b0 +45b1 +13b2
26= b0 +43b1 +13b2
28= b0 +46b1 +14b2
30= b0 +44b1 +16b2
28= b0 +45b1 +16b2
28= b0 +44b1 +15b2
27= b0 +43b1 +15b2
要选择三个参数b0,b1,b2同时满足这10个方程是不可能的,因此我们想办法找b0,b1,b2使这些方程尽可能满足,令:
Q=(29—b0—45b1—16b2)2+(24—b0—42b1—14b2)2+(27—b0—44b1—15b2)2+(25—b0—45b1—13b2)2+(25—b0—45b1—13b2)2+(26—b0—43b1—13b2)2+(28—b0—46b1—14b2)2+。。。。。。
或: Q=(y1—b0—b1X11—b2X21)2 +(y2—b0—b1X12—b2X22)2+(y3—b0—b1X13—b2X23)2+(y4—b0—b1X14—b2X24)2+(y5—b0—b1X15—b2X25)2+(y6—b0—b1X16—b2X26)2+(y7—b0—b1X17—b2X27)2+。。。+(y10—b0—b1X1,10—b2X2,10)2
Q= yk—b0—b1X1k—b2X2k)2
= yk—b0—b1X1k—b2X2k)=0,
= yk—b0—b1X1k—b2X2k)=0,
= yk—b0—b1X1k—b2X2k)=0,
或: =nb0+b1+b2
=b0+b1+b2
=b0+ b1+b2
将表的数据代入方程得:
272=10b0+441b1+14b2
12005=441b0+19461b1+6485b2
4013=147b0+6485b1+2173b2
用求解线性代数方程组的方法求得:
b0=-13.8196, b1=0.56366, b2=1.09947
Y= -13.8196 + 0.56366X1 + 1.09947X2
第三章 时间序列分析
3.1 时间序列的分析指标
让我们来看下列序列:
例1:1931年—1943年某商店灯具销售额
1931年 1932年 1933年 1934年 年
1266 1225 1116 1218 1938年 1939年 1940年 1941年 1584 1982 2171 2661 例2:重庆地区用电量时间序列:(单位:兆瓦)1991年 1992年 1993年 1994年 1998年
85.52 99.62 116.6 122.1 192.1
1935年 1446 1942年 2853 年 133.1 1936年 1937 1775 2014 1943年
3186 (千美元) 1996年 1997年 148.0 165.1
1995
又如:某农场逐月的鸡蛋产量,国家逐年投放到市场上的货币量。
我们把按一定时间顺序对某种现象进行观察并记录下来的统计指标数据,或者更广泛地,按时间顺序排列成的离散型观测数据序列X1, X2, …,Xt,…,称为时间序列。 按定义,时间数列有两个相联系的要素构成:一是现象所属的时间;另一个是与某个时间相联系的统计指标数值。把表示动态性的时间因素和表现经济现象的统计指标排列在一起,就构成了表现社会经济管理现象动态发展趋势、发展规律的一种统计的有力武器。
3.1.1 发展水平和平均发展水平
(一)发展水平:时间序列中的每一项具体的统计指标数值,说明社会经济现象在某个时期或时点上所达到的程度和规模,我们称为发展水平。时间序列的第一项指标值叫最初水平,最后一项指标值叫最末水平,中间的各项指标值叫中间发展水平。一般用下列符号表示:
a0, a1, a2, a3, …, an-1, an .
a0是最初水平, an是最末水平, a1, a2, a3, …, an-1, 为中间发展水平。.
在分析研究某发展水平时,常和另一时间的发展水平相对比,作为比较基础时期的水平,叫基期水平;所分析研究的时期叫做计算期水平或报告期水平。例如,时间数列:
------------------------------------------------------------------------------------------------
年份 1991 1992 1993 1994 1995
木材产量 5807 6174 6390 6615 6767
-------------------------------------------------------------------------------------------------
其中5807是最初水平,6767为最末水平,其余为中间水平。
(二)平均发展水平:也称序时平均数。序时平均数和一般平均数的区别在于:一般平均数是将总体各单位在同一时间的数量差异抽象化,是一个根据变量数列计算的静态平均数;序时平均数是将同一总体在不同时间的数量差异抽象化,是根据时间数列计算的动态平均数。
1.时期数列的序时平均数:同一时期数列中各项指标值所属时期的长短相等,可以直接将各项指标值相加除以项数,用简单算数平均法计算序时平均数。计算公式为:
其中,表示平均发展水平,ai表示各时期的发展水平(i=1,2,…,n), n表示时期项数。
如上表,我国“八五”期间的木材平均产量为:
=6350.6万立方米
2.由时点数列计算平均发展水平:
当整个研究期的各个时点数据齐备时,也可采用
来计算, 如利用1989年10月份各日的工人人数,求10月份的平均工人数;某商店利用8月份每日的商品的库存额,计算该月商品平均库存额等。因为此时实际上可以看成时期数列。
若时点资料不齐备,由间断的时点数列构成,但时点的时间间隔相等。在这种情况下,假定指标值在两个相邻点之间的变动是均匀的,即可用两时点间的均值来代表两时点间隔内的一般水平:
=
例7.1 某工厂职工人数资料如表7.1,计算第二季度的平均职工数。
第二季度职工人数
-------------------------------------------------------------------------------------------
4月1日 5月1日 6月1日 7月1日
2040 2035 2045 2058
-------------------------------------------------------------------------------------------
解:假定指标值在两个相邻点之间的变动是均匀的,于是:
=2043(人)
若时点资料不齐备,由间断的时点数列构成,但时点的时间间隔不相等,则需以时间间隔长度f为权数,采用下列公式计算序时平均数
某商店1988年商品库存额资料如表7.2,试计算全年平均库存额:
-----------------------------------------------------------------------------------------------------
时间: 1月1日 3月31日 5月31日 9月30日 12月31日
库存额: 5.2 3.6 3.0 4.2 5.6
-----------------------------------------------------------------------------------------------------
解:假定在两时点之间的商品库存额是均匀变动的,于是两点间的库存额可以用两点库存额的平均值来代替两点间每一点的值。由于时点数据资料的时间间隔不等,所以用时间间隔作为权数,年平均库存额为:
=4.075
故该商店1988年商品平均库存额为4.075万元。
3.1.2 发展速度和平均发展速度
发展速度是反映社会经济现象在一定时期内发展方向和程度的指标,由报告期的发展水平和基期发展水平之比来计算,说明报告期发展水平达到基期发展水平的若干倍或百分之几,通常用倍数或百分数来表示。其计算公式为:
发展速度=
发展速度大于百分之百,表示发展水平上升,发展速度小于百分之百,表示发展水平下降。
根据采用基期不同,发展速度分为定基发展速度和环比发展速度。定基发展速度,是报告期发展水平同某一固定基期发展水平之比,表明现象在较长时期内总的发展方向和变化程度,因此也称总发展速度。其计算公式为:
定基发展速度=
环比发展速度是报告期发展水平同前一期发展水平之比,反映了某种社会经济现象的逐期发展方向和变化程度。其计算公式为:
环比发展速度=
例如, 表7.3是某企业1984--1988年工业生产的发展情况,
-------------------------------------------------------------------------------------------------------------------
1984年 1985年 1986年 1987年 1988年
工业总产值 677 732 757 779 819
(1970年不变价格) a0 a1 a2 a3 a4
定基发展速度(%) 108.12 111.82 115.07 120.97
环比发展速度(%) 108.12 103.42 102.91 105.13
--------------------------------------------------------------------------------------------------------------------
由表中可以看出,定基发展速度和环比发展速度分别说明不同的问题。
定基发展速度和环比发展速度的关系是:定基发展速度等于相应的各个环比发展速度的连乘积。
例如,上表中,以1984年为固定基期的1988年的定基发展速度,等于1985年至1988年各年环比发展速度的连乘积,即。120.97%=108.12%103.42%102.91%105.13%
定基发展速度和环比发展速度的关系还表现为:两个相邻时期的定基发展速度之比等于这两个时期的环比发展速度。
例如,1986年定基发展速度与1987年定基发展速度之比,115.07/111.82=102.9064.
等于1987年的环比发展速度。
3.1.3 增长量、增长速度和平均增长速度
增长量,是指时间数列中计算期(报告期)发展水平与基期发展水平之差,它说明社会经济现象的报告期比基期的增加和减少的数量,即:
增长量=报告期发展水平 —基期发展水平
当报告期水平比基期水平增加时,增长量为正,当报告期水平比基期水平减少时,增长量为负。
3.2 预测方法
一次移动平均法
例1 某地区对每公顷小小麦的产量进行预测,已知30年数据如表。
周期数t(年) 产量Yt 移动平均数Mt
1 1500
2250
3 4 5 6 7 8 9 10 11 12 750
3000
2250 3000 1500 2250 4500 5250 3000 2250 1950
2250
2100
2400
2700
3000
3300
3450
13 1500 3300
14 3000 3000
15 2625 2475
16 17 18 19 20 21 22 23 24 25 2250 3375 4500 3750 3000 4500 6000 6750 6000 6750 2325
2550
3150
3300
3375
3825
4350
4800
5250
6000
26 5626 6225
27 6000 6225
28 5250 5925
29 6750 30 7125 计算过程如下:
M===1950
M===2250
M===2100
一般的计算公式为:
M=
二、二次移动平均
二次移动平均的计算公式为:
6075
6150
M=
周期数t(年) 产量Yt 移动平均数Mt 二次移动平均M
1 1500
2250
3 4 5 6 7 8 9 10 11 750
3000
2250 3000 1500 2250 4500 5250 3000 1950
2250
2100
2400
2700 3000 3300 2280
2490
2700
12 2250 3450 2970
13 1500 3300 3150
14 3000 3000 3210
15 16 17 18 19 20 21 22 23 24 2625 2250 3375 4500 3750 3000 4500 6000 6750 6000 2475 2325 2550
3150
3300
3375
3825
4350
4800
5250
3105
2910
25 6750 6000
26 5626 6225
27 6000 6225
28 5250 5925
29 6750 6075
30 7125 6150
三、指数平滑法
M=
=+
=
=αYt+(1-α)S
一次指数平滑法是一种特殊的加权平均法,其思路是:新预测值等于老预测值加上平滑系数与实际值和预测值误差的积。
St=St-1+α(Yt-1 — St-1)
式中:St---本期预测值;St-1---上期预测值;Yt-1 ---上期实际值;α为平滑系数。
如某产品出厂价格前6个月的实际值为:
月次 1 2 3 4 5 6
出厂价格 1元 1.1元 1.1元 1.2元 1.2元 1.3元
Y2
例 下表是光华科研所某项新技术产品过去7个月份的销售额数据,试用一次指数平滑法预测第8月份的销售额.
取α=0.2, 令初值s1=y1=143万元,
s2=s1+α(y1-s1)=143+0.2(143-143)=143
s3=s2+α(y2-s2)=143+0.2(152-143)=144.80
s4=s3+α(y3-s3)=144.8+0.2(161-144.8)=148.04…………………
s5=s4+α(y4-s4)=148.04+0.2(139-148.04)=146.23
s6=s5+α(y5-s5)=146.23+0.2(137-146.23)=144.38
s7=s6+α(y6-s6)=144.38+0.2(174-144.38)=150.30
s8=s7+α(y7-s7)=150.30+0.2(142-150.30)=148.64
故认为第25个月的销售额的预测值为143万元.
-------------------------------------------------
时间 序号 销售额 预测值
1987.5 1 143
1987.6 2 152 143
1987.7 3 161 144.8
1987.8 4 139 148.04
1987.9 5 137 146.23
1987.10 6 174 144.38
1987.11 7 142 150.30
1987.12 8 148.64
--------------------------------------------------
书P188 例7.3 利用表7.6 的数据为我国1969—1980年钢材消费量,配合一条趋势线。
解:将表7.6数据绘制成时间序列曲线图,如图7.1 。 由图可看出,钢材消费量的变动趋势类似直线,
yi等于钢材消费量,
b== =146.2727
由(1): a =- b = 950.3939
=950.3939 + 146.2727 t
这条直线反映了我国1969—1980年钢材消费量的变动趋势。
Logistic曲线由比利时数学家P.F.Verhulst于1844年创立,美国R.Pearl(皮尔)是美国生物学家和人口统计学家, 把它用于生物繁殖和生长过程的研究, 1923年发表其成果,下式称之为皮尔曲线的模型:
=L+
---- 预测量y的趋势变量; K --- 变量y的极限; K>0,
m, b --- 模型参数; m>0, b>0, t --- 时间;
当t → - ∞, =0, 当t → ∞, 的极限为K, 曲线的拐点为:(t=, =+L),
此曲线呈拉长的“S”形,其特点是只升不降,(正“S”形),只降不升(反“S”形)。在生物方面用于发育、繁殖,在经济方面,用于收音机、电视机、天然气销售量的预测。
戈玻兹(B.Gompertz)是英国统计学家和数学家,他制定的戈玻兹曲线又称戈玻兹增长曲线。1825年戈玻兹(B.Gompertz)将它用于分析人口变动趋势的研究。
---- 预测量y的趋势变量; K --- 变量y的极限; K>0,
p, d --- 模型参数; p>0, d>0, t --- 时间; 曲线的拐点为:(t=, =)
例7.4 利用表7 .7 数据,为某地收音机销售量配合一条趋势线。
解:当收音机、电视机、汽车等商品刚进入市场时,由于价格高,销售量增长较慢,而后由于商品价格下降,群众收入增加,知名度不断增加,民众攀比心理等原因,进入快速增长时期,(如1975年—1982年)以后由于商品饱和和新产品的出现的替代作用,增长速度减缓。皮尔曲线进行拟合。皮尔曲线:
=
其中:t表示时间,L表示增长上限。对皮尔模型,求解时用倒数总和三段法,(三和
值法),而对于戈玻兹(B.Gompertz)模型,求解时用对数总和三段法。倒数总和三段法首先求已知数据的倒数,把它们分成个数相等的三个组,各组实际值的倒数之和分别记为S1,S2,S3,即
S1==0.20659, S2==0.05583, S3==0.04084,
又设 D1= S1-S2 = 0.20659-0.05583=0.15076,
D2= S2-S3 = 0.01499
b=(lnD1-lnD2)=0.5771
L= = 102.093 (极限未知情况下,求出极限),
C==1.15329
a== 14.8197
由此可得趋势线为:
=
7.2.4 季节变动的测量
1.按月(或季)平均法
求季节效应或季节指数,根据序列月度(或季度)数据,先求得若干年内同月(或季)平均数(季节效应),再求出若干年内总的月(或季)平均数,然后将二者相比,求得各月(或季)的季节比率,或称季节指数。季节指数的计算公式为:
它反映序列在某月(或季)内由于受季节变动影响高于或低于总平均数的百分比。
例7.5 测定某市汗衫背心零售量的季节变动。
解:
1). 绘制时间序列曲线图,如图7.3,表明,在考察的几年中, 汗衫背心的零售量无明显趋势变动,但季节变动明显,每年夏季销售量多,冬季销售量少。
2).用按月平均法测定季节变动:
1月平均数 ==93/4=23.25
6月平均数 ==1349/4=337.25
10月平均数 = = 111/4=27.75
总平均数==1460.5/12=121.708333
3). 计算季节指数
f1=23.25/121.71=0.191027
f6=337.25/121.71= 2.77093
f10=27.75/121.71= 0.22800098
季节指数表明了经济变量随季节(月份)变化的情况,各月的季节指数表示该月的销售量低于或高于年平均销售量的情况。如一月份的季节指数为19.1%,表明一月份的销售量为为年平均水平的19.1% 。例7.5 的计算表明某市汗衫背心零售情况一、二月份为销售淡季,三、四月份开始上升,五、六、七月是销售旺季,八、九月份下降,十、十一、十二月份至次年一、二月份为销售淡季。
线性回归
书P162 例:根据表6.2提供的数据,分析预测1981年到1985年我国国民收入以4.5%的速度递增,钢材消费量将达到的水平.
解:令钢材消费量为因变量Y,国民收入为自变量X,根据表6.2的数据绘制散点图,如图6.7.从图可以看出,变量Y与X之间呈线性关系,利用最小二盛法建立一元线性回归方程,
Y=-460.5282+0.9840X
预测,见P164页下半部说明,P165页上半部说明.
3.3 时间序列的分解
时间序列的影响因素很多,形成、构成的方式也很多,但可统一的把它分解为长期趋势、周期、季节、随机因素4个部分,以便于分析和预测,如分解为四个因素之和:
和形式分解: Yt=Tt+St+Ct+It
积形式分解: Yt=TtStCtIt
其中:Tt:趋势值;St:季节变差;Ct:循环变差;It:不规则变差 。
3.3.3 趋势值的求法
随手描绘法: 将时间序列数据描绘在坐标平面上, 随手画一条光滑的直线或曲线, 表示序列的趋势, 这种方法虽很粗糙, 但方法简单, 能很快看出序列趋势的大致走向, 是直线还是什么形状的曲线.
移动平均法:
将时间序列数据逐项移动,依此计算包含一定时期的平均数,形成一个新的序时平均数序列。这里平均期数称为移动步长,当移动步长为奇数时,移动平均数就是被平均各时期的中间一期的“修匀”值;当移动步长为偶数时,一次平均后还需进行二次平均。
表第2列灯具销售额时间序列计算的n=5期的移动平均:
(1266+1225+1116+1218+1446)÷5=1254
(1225+1116+1218+1446+1775)÷5=1356
例:1931年—1943年某商店灯具销售额
------------------------------
年 销售额 5年移动
(千美元) 平均
1931年 1932年 1933年 1934年 1935年 1936年 1937年 1938年 1939年 1940年 1266
1225 1116 1254
1218 1356
1446 1514
1775 1607
2014 1760
1584 1905
1982 2082
2171 2250
1941年 2661 2571
1942年 2853
1943年 3186
--------------------------------------------------
3.3.4 季节变动的测量
时间序列: X1, X2,…, X16, X17, X18, X19,…, 按照乘积模型表示成X=T×C×S×I
求季节成分S的步骤:
(1)用简单移动平均法把T×C×S×I中的S×I匀滑掉而得到T×C
(2)再用除法求S×I:
S×I =
(3)再用简单移动平均法消除S×I中的随机变差I,得到季节变差S 。
例:鲜蛋季度销售量时间序列的移动平均计算
--------------------------------------------------------------------------------------
年份与 销售量 每四季度 “置中”
季度 (万吨) 移动平均 移动平均
--------------------------------------------------------------------------------------
1985 1 13.1
2 13.9 10.88
3 7.9 10.30 10.59
4 8.6 9.7 10.00
1986 1 10.8 10.15 9.93
2 11.5 10.75 10.45
3 9.7 11.70 11.22
4 11.0 13.20 12.45
1987 1 14.6 14.78 13.99
2 17.5 16.57 15.68
3 16.0 17.53 17.05
4 18.2 8.15 17.84
1988 1 18.4 18.37 18.26
2 20.0 18.33 18.35
3 16.9
4 18.0
------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------
序号 销售量 “置中” 移动平均 季节×随机
X T×C(长期×周期) S×I=X/ T×C
-------------------------------------------------------------------------------------
1 13.1
13.9
3 7.9 4 8.6 5 10.8 6 11.5 7 9.7 8 11.0 9 14.6 10 17.5 11 16.0 12 18.2
9.93 10.45 11.22 12.45 13.99 15.68 17.05 17.84 0.746
0.86
1.088
1.100
0.865
0.884
1.044
1.116
0.938
1.020
-
10.59 10.00
13 18.4 18.26 1.008
14 20.0 18.35 1.090
15 16.9
16 18.0
------------------------------------------------------------------------------------
下面采用简单的平均法把S×I序列中的随机成分I平均掉。从第三季度开始,
求每年的三季度S×I值的平均,得:
第三季度的季节效应==0.850
第四季度的季节效应==0.921
第一季度的季节效应==1.047
第二季度的季节效应==1.102
把季节效应规范化,得到季节指数:
规范化的目的是为了使各季节指数之和为常数,可按公式:
季节指数=季节效应÷(季节效应之和)
则: 季节指数之和=4
一季度季节指数==1.068
二季度季节指数==1.124
三季度季节指数==0.867
四季度季节指数==0.940
因篇幅问题不能全部显示,请点此查看更多更全内容