Robert·Tibshirani
加拿大多伦多大学
【1994年1月收到,1995年1月修订】
【摘要】
本文提出一个线性模型估计的新方法。LASSO最小化残差平方和使得系数绝对值之和小于一个常数。由于此约束的性质倾向于产生一些为0的系数,从而给出了解释模型。我们的仿真研究表明,LASSO具有一些子集选择和岭回归的有利特性。它产生了例如子集选择的解释模型并展示了岭回归的稳定性。在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系。LASSO思想是相当广泛的并可用于各种统计模型:本文简要介绍了广义的回归模型和基于树的模型的扩展。
关键词:二次规划;回归;压缩;子集选择
1.引言
iTiX(x,...,x)(X,y),i1,2,...,N,i1ipi考虑通常的回归情况:已知数据其中和yi分别是观察
数据的第i个回归因子和响应量。通过最小化残差平方的误差得到普通最小二乘法(OLS)估计。数据分析师经常不满意OLS估计值有两个原因。第一是预测精度:OLS估计经常是低偏压高方差;预测精度有时可以通过压缩或设置一些系数为0进行改善。通过这样,牺牲
第1页
一些偏压,减少预测值的方差,从而提高可以总体的预测精度。第二个原因是解释。拥有大量的经常想要决定更小子集的预测值,我们表现出强烈的影响。
改进OLS估计的子集选择和岭回归这两种标准标准技术都有缺点。子集选择提供可解释模型,但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其易变。数据的一点更改可能导致选中非常不同的模型,这样可以减少其预测精度。岭回归是一个系数收缩的连续的过程,并且因此更加稳定:然而,它的任何系数都不为0,因此没有给出一个容易解释的模型。
我们提出一个新技术,LASSO即最小绝对收缩和选择算子。它将一些系数收缩,其他的系数设置为0,从而试图保持子集选择和岭回归的良好特征。
第2节给出LASSO的定义,看一些特殊情况。第3节给出真实数据示例,而在第4节我们讨论预测误差与LASSO收缩参数估计的方法。第5节简要介绍LASSO的贝叶斯模型。第6节描述LASSO算法。第7节描述仿真研究。第8、9节讨论广义回归模型的扩展和其他问题。一些关于soft thresholding和与LASSO的关系的结果在第10节中进行了讨论,第11节包括一些讨论和总结。
2.LASSO方法
2.1定义
假设已知数据
(Xi,yi),i1,2,...,N,其中
Xi(xi1,...,xip)T是预测变量,yi是响应变量。在一,yis是条件独立的。假设xij是标
般的回归设置中,我们假设观测值独立或者对给定的准化的,那么
xijs
第2页
xiijN0xi2ij,N1。
令
ˆ(ˆ,...,ˆ)T1pˆ,)的定义如下: ,LASSO估计(ˆN2ˆˆ(,)argmin(yijxij)ji1s..tjtj (1)
ˆy。我们可以假设不是一其中,调优参数t0 。现在对于所有t,的解决方案是般性y0,因此省略。
方程(1)的解决方案的计算是具有线性不等式约束的二次规划问题。在第6节,针对这个问题,我们描述了一些高效、稳定的算法。
ˆot0j参数t0控制了应用于估计的收缩量。令
ˆoj为完全最小二乘估计,
。tt0将
导致方案的收缩趋向于0,并且一些系数可能刚好等于0。例如,如果tt02,效果会大致类似于寻找大小为p2的最优特征子集。还要注意,设置的矩阵不一定需要满秩。在第4节,我们给出基于数据的估计t的方法。
LASSO的动机来自于布赖曼(1993)的一个提议。布赖曼的非负garotte最小化。
(yi1Niˆox)2cjjijjs..tcj0,cjt. (2)
第3页
garotte始于普通最小二乘估计,通过总和被限制的非负因素进行收缩。在广泛的仿真
研究中,布赖曼显示,除非真正的模型中有许多小的非零系数,garotte具有保持比子集选择更低的预测误差且与岭回归具有竞争力。
garotte的一个缺点是它的解决方案取决于标志和OLS估计量。在OLS表现不佳的过
拟合或高度相关的设置中,garotte可能会深受其害。相比之下,LASSO避免显示使用OLS估计。
弗兰克和弗里德曼(1993)提出了使用绑定的参数q范数,q是一个大于等于0的数;LASSO方法中q1。在第10节中简要讨论了这个问题。
2.2正交设计
深入了解收缩的性质可以从正交设计案例中进行收集。令X为既定np矩阵,元素为
xijT,假定XXI,I为单位矩阵。
方程(1)的解很容易证明是
ˆsign(ˆo)(ˆo)jjj (3)
ˆtj其中,由决定。有趣的是,这与多诺霍和约翰斯通(1994)和多诺霍等人(1995)
提出的软收缩建议具有相同的形式,应用于小波系数的函数估计。软收缩和最低l1范数惩罚的关系也由多诺霍等人(1992)在非负参数信号和图像恢复中指出。我们将在第10节进行详细的解释说明。
第4页
在正交设计的情况下,大小为k的最佳子集的选择减少到最大系数k的绝对值,将其余的设置为0。对的一些选择相当于如果下面式子最小
ˆoj,设置
ˆˆojj;否则设置为0。岭回归使得
(yx)ijiji1jN2j2j
或者等价地,使得如下最小
(yx)ijiji1jN2s..tj2t. (4)
岭回归的解是:
1ˆoj1+
其中取决于或t。garotte估计是
ˆo)j.ˆo2j(1
图1显示了这些函数的曲线。岭回归用一个常数因子衡量系数,然而LASSO通过常数因子转换,截断为0。garotte函数与LASSO十分相近,都是系数愈大收缩愈小。我们的仿真程序显示,当设计不是正交时,garotte与LASSO差异可能会很大。
2.3LASSO几何
第5页
从图1中很明显的看出为什么LASSO产生的系数经常是0。为什么这种情况会出现在一般(非正交)的设置中?并且为什么这种现象在岭回归中没有出现,其中岭回归使用的约束条件是2jt而不是jt?图2提供了当p2时的试图。
2(yx)ijiji1jNˆo)TXTX(ˆo)(标准与加上一个常数相等。由图2(a),函数的椭
圆轮廓由全曲线显示出来;它们集中于OLS估计周围;约束区域是个旋转的正方形。LASSO解决方案是首先轮廓触摸了广场,并且有时这也会发生在一个角落,该角落对应于系数为0的地方。图2(b)显示了岭回归的图像,没有有角的轮廓,因此很少有零解。
ˆoj这个图片中出现了一个有趣的问题:LASSO估计的符号可以与最小二乘估计
o不同
吗?由于变量是标准化的,当p2时,主要的轮廓线轴线与坐标轴成45,并且我们可以
ˆo表明,轮廓必需与包含的正方形在同一个象限中。然而,当p2时,在数据上至少是中
度相关,这不必是真的。图3在三维空间中进行举例。图3(b)中的视图证实:椭圆与约束区域在第八象限的接触与它中心所在的象限不同。
第6页
图1. (a)子集选择,(b)岭回归,(c)LASSO和(d)garotte:—,正交设计情况
下,系数压缩的形式;·倾斜角为45°的线作为参考
图2. (a)是LASSO的预估图像,(b)是岭回归的预估图像
第7页
图3. (a)不同于总体最小二乘估计LASSO估计落在第八区的例子;(b)俯视图
ˆogarotte然而,保留了每个j的符号,LASSO可以改变符号。甚至在LASSO估计与
garotte有相同符号的矢量的情况下,garotte中OLS估计得存在也会使结果不同。带有约束
条件cjtˆc的模型
jojijx可以表示成约束条件是jˆotj,模型为jxij。举例,如
ˆoˆo0p212果且,效果将会横向拉伸图2(a)的正方形。结果,garotte青睐于较大的1和
较小的2。
2.4关于两个预测的其他信息
ˆop2假设,并且不失一般性,最小二乘估计j都是正的。那么我们可以展示LASSO
估计是
第8页
图4. 对于两个预测值的例子,实线表示LASSO,虚线表示岭回归:曲线说明,作为LASSO或者岭回归参数的数据对1,2是变化的;从底部的虚线开始并向上移动,相关系数是0,0.23,0.45,0.68和0.90
ˆ(ˆo)j (5)
ˆˆtˆoˆot1212时,并且及时预测值是相关的这其中选定使得。这个公式适用于
个公式也是有效的。解得出
ˆoˆot12ˆ1(),22ˆoˆot12ˆ().222 (6)
相反,岭回归收缩的形式取决于预测值的相关性。图4给出了一个例子。在没有干扰的情况下,我们从模型y6x13x2中产生100个数据点。这里x1和x2是标准正常变量,两
21222者的相关系数为。图4的曲线表明岭回归和LASSO估计得边界和1是变化
的。对的所有值,LASSO估计均遵循全曲线。岭回归估计(间断的曲线)取决于。当
第9页
p0时,岭回归成比例收缩。然而,对于更大的p值岭估计收缩变得不同并且边界降低是
甚至可以增加一点。杰罗姆·弗里德曼指出,这是由于岭回归试图使系数等于他们最小平方范数的趋势。
2.5标准误差
由于LASSO估计是响应值的一个非线性、非可微函数,即使对应固定的t,所以很难得到标准误差的一个准确估计。一种方法是通过自助法;要么t可以固定,要么为每个样本对t进行优化。固定t类似于选择一个最佳子集,然后对每个子集使用最小二乘标准误差。
一个近似封闭的形式估计可能通过把惩罚j写成2jj得到。因此,对于LASSO
*T1T(XX+W)Xy形式的岭回归近似解决,其中W是一个对角矩估计,我们可以通过
阵,对角元素为
ˆj,W是W的广义逆矩阵并且的选定使得jt*成立。估计的协方
差矩阵可以用以下近似
ˆ2, (7) (XTXW)1XTX(XTXX)1ˆ02ˆ其中是误差方差的一个估计值。这个公式的一个困难在于对j的预测值给出了0
的一个估计方差。
这种近似也表明了计算LASSO估计本身的一个迭代岭回归的算法,但这是很低效的。然而,它对LASSO参数t(第4节)的选择很有用。
3.例子—前列腺癌数据
第10页
前列腺数据来自于斯塔米等人(1989)的一项研究,检查接受根治性前列腺切除术的人前列腺特异性抗原水平与临床措施的相关性。因素有:日志(癌症卷)(lcaval)、日志(前列腺重量)(lweight)、年龄、日志(良性前列腺增生)(lbph)、精囊入侵(svi)、日志(荚膜渗透)(lcp)、格里森评分(gleason)和百分比格里森评分4或5(pgg45)。在第一个标准化预测因子后,我们找到适合日志(前列腺特异抗原)(lpsa)的线性模型。
图5. 前列腺癌例子中,系数的LASSO压缩:每个曲线代表了一个系数(右边有标注),该曲线作为LASSO参数
stˆojˆ0.44的模型,该(没有将截距画出来);虚线代表了s值是由广义交叉验证所得的最优值
图5显示了作为一个绑定
stˆoj的标准函数的LASSO估计。请注意,随着s趋于
0,每个系数的绝对值也趋于0。在这个例子中,曲线单调且趋于0,但一般情况下不会总发生。单调性的缺乏是由岭回归与子集选择所共同承担,例如,大小为5的最优特征子集
ˆ0.44时的模型,该值是由广义交可能不包含大小为4的最优特征子集。垂直的虚线是当s叉验证所得的最优值。粗略地说,这与保持略低于预测值的一半相对应。
第11页
表1显示了完全最小二乘法、最优子集和LASSO程序的结果。第7.1节会给出所使用的最佳子集的详细步骤。LASSO给出了癌症卷、前列腺重量和精囊入侵的非零系数;子集选择选择了同样的三个预测因子。请注意,子集选择所选择的预测因子的系数和Z得分往往比完整模型值大;这在呈正相关的预测中是常见的。然而,LASSO显示了相反的作用,因为它从完整的模型值中压缩系数的Z得分。
倒数第二列的标准误差通过充分的最小二乘法残差的自助重采样进行估计。标准误差
ˆ取最优值0.44计算得到。表2 的计算是通过对原始数据集中的s表1
表2
第12页
图6. 在前列腺癌例子中,盒状图中给出了8个预测值LASSO系数估计的200个引导
值
比较了岭估计近似公式(7)固定自助t值和在自助法中对每个样本重新估计。除了零系数,岭估计公式给了一个自助t值的一个相当好的近似。允许t变化包含额外的变异来源,因此给出了一个较大的标准误差估计。图6显示固定估计值为0.44的LASSO估计的200自助复制的框块。估计系数为0的预测因子展示倾斜自助分布。中央百分之九十的时间间隔(自助分布的第五百分位和第九十五百分位)都包含零,癌症卷和精囊入侵这些例外。
4.t的误差预测与估计
在本节中我们描述了LASSO参数t的三种估计方法:交叉验证、广义交叉验证和分析风险的无偏估计。严格地说,前两种方法适合于“X-random”情况,在这种情况下假设观测值(x,y)来自于未知分布,第三种方法适用于“X-fixed”情况。然而,在现实中存在的问题往往不能明确的区分这两种情况,我们可能只需选择最有效的方法。
假设
Y(X)
第13页
2ˆ(X)估计的均方误差定义如下: Var()E()0其中,,。ˆ(X)(X),MEE2
ˆ(X)固定,预期接管X和Y的联合分布。类似的措施是ˆ(X)的预测误差由下式给出
ˆ(X)ME2PEEY2 . (8)
我们通过五倍交叉验证正如埃夫隆和Tibshirani(1993)所描述(例子)的估计LASSO步骤的预测误差。在归一化参数
stˆoj的条件下索引LASSO,并且预测误差是由s从0
ˆ产生的最低的PE估计值。 到1的网格估计出来的。选择了s报道了ME而不是PE方面的仿真结果。本文考虑到的线性模型(X)X,均方误差有很简单的形式
ˆˆ)TV(ˆ)ME(
其中V是X的总体协方差矩阵。
估计t的第二种方法来自于LASSO估计的线性近似。我们把约束jt写成
,
2jjt。这个约束就等价于在残差和或残差平方上增加一个拉格朗日惩罚
j2j其中取决于t。因此,我们可以把约束解决方案写成岭回归估计
T1T(XXW)Xy (9)
第14页
其中,
Wdiag(j),W表示广义逆矩阵。因此,在约束中适合的有效参数量可以
用以下进行近似
p(t)trX(XTXW)1XT.
令rss(t)为约束与约束t的残差平方和,我们构建了广义交叉验证的方式统计
1rss(t).2N1p(t)NGCV(t) (10)
最后,我们概述基于斯坦风险无偏估计的第三种方法。假设z是一个多元正态随机向
ˆ为的一个估计值,并且ˆzg(z),其中g是一个量,均值为E,方差为单位矩阵。令从R到R(见斯坦(1981)的定义1)的一个基本可微函数。然后斯坦(1981)显示
ppp
ˆE2pE(g(z)2dgidzi).12 (11)
ˆ我们可以将这个结果应用于LASSO估计(3)。用ˆˆoN表示的j估计标准误差,其
中
ˆ2(yiyˆi)2(Np).那么
ˆoˆj是大约独立的标准正态变量,并且从方程(11)中我们可
以得到公式
p2oˆˆˆoˆ,)2R()ˆp2#(j;jˆ)max(jj1
作为风险的近似无偏估计或均方误差
ˆ()E,其中ˆ()sign(ˆ)(ˆ2jojojˆ)。多
诺霍和约翰斯通(1994)在方程估计设置中给出了一个相似公式。因此,的一个估计可
第15页
以由
ˆ()R的最小化得到:
ˆ().ˆargmin0R
从这我们可以得到LASSO参数t的一个估计:
ˆoˆ(ˆ).tj
尽管推导t的前提是正交设计,在非正交设置的时候,我们也试图使用它。自从预测值标准化,t的最优值大约是数据中整体信号信噪比的函数,并且它应该对X的协方差相对不敏感。(相比之下,LASSO估计的形式对协方差敏感,我们需要适当地考虑它。)
7.2节的仿真示例表明该方法给予了t一个有用的估计。但是我们仅仅只能提供一个启
1212TZXV,V.因为X的列已经标准化,在形状XXV发式的论点来支持它。假设,令
上jt与jt不同但是有大致大小相同的边缘投影。因此tˆ的最优值应该在每个实
例中相同。
最后,注意到斯坦方法在t的交叉验证估计具有显著的计算优势。在我们的实验中,我们优化LASSO参数t的15个值的网格并且使用了五倍的交叉验证。结果,交叉验证方法要求第六节模型最优化步骤的75个应用而斯坦方法值要求一个。广义交叉验证方法的要求在这两个中间,要求每个网格点有一个优化过程的程序。
5.LASSO贝叶斯估计 LASSO约束
jt相当于对残差平方和(见穆雷等人(1981),第五章)添加惩罚
第16页
条件
j。现在,
j与双指数分布的(负)对数密度是成正比的。结果,我们可以得出
在js的独立双指数先验信息下LASSO估计作为贝叶斯后验模型,
f(j)j1exp()2
其中1.
图7显示了双指数密度(全曲线)和正常密度(虚线曲线);后者是利用岭回归的隐式之前。注意,双指数密度如何提出将更多的质量接近0和尾巴。这反映了LASSO产生估计的更大趋势是很大或者是0。
6.寻找LASSO解的算法
我们固定t0。问题(1)可以表示成一个带有2个不等式的最小二乘问题,对应于jsp
的2个可能的不同的符号。罗森和汉森(1974)提供了程序,该程序解决了线性最小二乘问
p
题,
图7. 实线表示双指数密度,虚线表示标准密度;前者是LASSO使用的隐式先验信息;
第17页
后者是表示岭回归使用的隐式先验信息
使得一般线性不等式约束Gh成立。其中G是一个mp矩阵,对应于m线性不等式约束的p矢量。然而,对于我们的问题,m2可能太庞大,这样直接应用此程序是不
p实际的。然而,通过顺序地引入不等式约束是可以解决问题的,即寻求一个满足所谓的库恩-塔克条件(劳森和汉森,1974)的可行的解决方案。下面我们大概的描述了程序。
令
Ng()i1(yijjxij)2,
并令于
iTti,i1,2,...,2p为(1,1,...,1)形式的p重数。那么对任意的i,条件jt就等价
Ei:iTtSi:iTt。对给定的,令以及。集合E是平等集,与完全满足
的约束相对应,而S是松弛的集合,与相等不成立的约束相对应。用GE表示行为i,iE的矩阵。令1是元素均为1的向量,向量的长度等于矩阵A的行数。
Ei0ˆ)isign(0下面的算法由问题使得
iTt0,
开始,是总体最小二乘估计。它解决了最小二乘是否成立。如果成立,那么计算完成;如果不成立,
jtˆ成立,然后检查jt将违反的约束添加到E并继续该过程直到成立。
这里是该算法的大致过程。
Ei0ˆ)isign(0(a)首先,
,是总体最小二乘估计。
ˆ
第18页
ˆ(b)寻找使得g()最小,约束条件是GEt1。
ˆt, (c)当
jˆ)ˆsign(iiE(d)将增加到集合,其中。寻找使得g()最小,约束条件是GEt1。
在有限的步骤里这个程序必定总是收敛的,因为每一步都有一个元素添加到集合E中,并且这里一共有个元素。最后的迭代是最初问题的解决方案,因为库恩—塔克条件在集合和上是满足收敛性的。
表3
此程序的修改是在(d)步骤中把不满足约束条件的元素从集合E中删除。这样做虽然更加有效率,但尚不清楚如何建立其收敛性。
事实上,如果p很大,为了得到稍许安慰,当迭代次数达到2时,算法必须停止。在
p
实践中我们发现迭代平均次数要求在(0.5p,0.75p)范围内,因此在实际目的上是可以接受的。
第19页
针对这一问题,大卫盖伊提出了完全不同的算法。我们把每一个和
jj写成
jj,其中
j都是非负的。然后我们解决带有
j0,j0p
+和jtjj约束条件的最小二乘问
2个约束条件)题。以这种方式我们把原问题(p个变量,转换为一个带有更多个变量(2p)
和更少约束条件(2p1)的一个新问题。可以看出新问题与原问题有相同的解决方案。
可以应用标准的二次规划方法,该算法保证在2p1步收敛。我们还没有广泛地比较这两种算法,但是在例子中发现第二种算法通常(不总是)比第一个算法略快些。
7. 模拟
7.1 大纲
在下面的例子中,我们将完全最小二乘估计与LASSO、非负garotte、最佳子集选择、岭回归方法进行比较。我们用五倍的交叉验证来估计每个例子中的正则化参数。对于最佳子集选择,我们使用S语言中的‘飞跃’程序,用五倍交叉验证估计的最优子集的大小。本程序在布雷曼博士和斯佩克特(1992)中进行了描述和研究,他们推荐在实际使用中用5倍或10倍交叉验证。
出于完整性的考虑,以下是交叉验证过程的细节。每个尺寸的最佳子集是第一个发现的原始数据集:把它们称为
S0,S1,...,Sp.v(S0代表零模型;因为这个模型y0的拟合值为0。)
v
由T表示完整的训练集,由TT和T,其中v1,2,...,5分别表示交叉验证集和测试集。
表4
第20页
对每个交叉验证倍数v,为数据TT的每个尺寸找到最佳子集:将它们称为
vvvS0,S1v,...,Sp.vvvSPE(J)表示预测误差,并形成估计 JT当用于测试数据时,令
15PE(J)PEv(J)5v1 (12)
ˆ 我们寻找使PE(J)最小的J以及我们选择的模型为SJˆ。这与估计固定模型
S0,S1,...,Sp的
预测误差不同,然后选择带有最小预测误差的模型。后面的程序在张(1993)和邵(1992)进行了描述,并可能造成不一致的模型选择,除非交叉验证测试集T以一个适当的渐进速
v
度增长。
7.2. 示例1
在这个例子中,我们模拟了50个数据集,由来自下面模型的20个观测数据组成
yTX,
ijTxjxi(3,1.5,0,0,2,0,0,0)其中,是标准正态变量。和的协方差,其中0.5。我
第21页
们设置3,这给出了大约5.7的信号噪声比。表3给出了在这个模型中超过200个模拟的均方差误差。LASSO表现的最好,其次是garotte和岭回归。
利用广义交叉验证估计LASSO参数似乎是最佳的,通过我们的例子发现它们趋于一致。
表5
第22页
图8. 估计例1中的8个系数,包括截距:,真实系数 ·
表6
子集选择挑选了大约正确的零系数(5)的数量,但如图8所示的盒状图中遭受了太多的变异性。
第23页
表4显示了LASSO(广义交叉验证)选择最常用的五个模型:虽然这次在正确的模型(1,2,5)中只有2.5%被选中,但是被选中的模型中有95.5%包含(1,2,5)。子集回归最常用的模型如表5所示。正确的模型被选中的概率更高(这次24%),但是子集选择也拟合不充分:这次被选中的模型中只有53.5%包含(1,2,5)。
7.3. 示例2
0.85第二个例子与第一个例子相同,但是对j和3,j;信号噪声比大约为1.8。
表6的结果显示岭回归通过一个很好的边际达到最佳,LASSO是仅有的一个优于完全最小二乘估计的方法。
7.4. 示例3
在示例3中我们选择应该很好的适用于子集选择的设置。模型与示例1中相同,但
(5,0,0,0,0,0,0,0),2,所以信号噪声比大约是7。
表7的结果显示garotte和子集选择表现最好,后面即是LASSO。岭回归效果很差,并且均方误差比完全最小二乘估计更高。
表7
第24页
表8
7.5. 示例4
在这个例子中,我们在一个更大的模型中检测LASSO的效果。我们模拟了50个数据集,每个数据集有100个观测值和40个变量(注意,当p30时最佳子集回归通常是被认为不切实际的)。我们定义预测值
xijzijzi,其中zij和zi是独立的标准正态变量。这诱导了
预测因子之间两两相关,并且相关系数为0.5。系数向量是=(0,0,...,0,2,2,...,2,0,0,...,0,2,2,...,2),TyX15,其中是标准正态。这产生在每个序列块中有10个重复。最后,我们定义
了一个大约是9的信号噪声比。表8的结果显示岭回归的效果最好,LASSO(广义交叉验证)第二。
在每个由10个数字组成的四个序列块中,LASSO系数的平均值是0.50(0.06),0.92
ˆ(0.05)的(0.07),1.56(0.08)和2.33(0.09),尽管LASSO平均仅产生了14.4零系数,s平均值与真实的部分0s(0.5)接近。
8. 广义回归模型的应用
LASSO可以应用于许多其他的模型:例如Tibshirani(1994)描述了在比例风险模型中的应用。在这里我们简要探讨广义回归模型的应用。
第25页
考虑通过向量参数进行索引的任何模型,在这个模型中估计是通过函数l()的最大化实现的;这可能是一个对数似然函数或者配合一些其他的措施。为了应用LASSO,我们在约束条件jt下求l()的最大值。有可能要通过一般(非二次)编程程序实现最大化。
相反,在这里我们考虑的模型二次逼近l(),这导致了的计算要用到迭代加权最小二乘法
(IRLS)。这样一种程序相当于一个牛顿—拉夫逊算法。通过这种方法,我们可以通过LASSO
算法的迭代应用加上一个IRLS循环解决带有约束条件的问题。一般来说,这个程序的收敛性不能保证,但在我们有限的经验中,它的效果都是相当好的。
8.1逻辑回归
为了说明我们将LASSO在二进制数据的逻辑回归上使用。我们使用脊柱后凸畸形数据,在黑斯蒂和Tibshirani(1990)第十章中有分析。响应变量是脊柱后凸畸形(0代表没有,1代表有);预测值x1是年龄,x2是椎骨的数量水平以及x3是刚开始时的椎体水平。这里有83个观测数据。由于预测值的影响是非线性的,在集中每个变量后,我们将二次条件包括在内。最后,将数据矩阵的列进行标准化处理。
线性逻辑拟合模型是
222.640.83x10.77x22.28x31.55x120.03x21.17x3.
基于Akaike信息准则,向后逐步删除,舍弃x2部分,产生的模型是
222.640.84x10.80x22.28x31.54x121.16x3.
ˆ0.33,给出下面的模型 LASSO选择s
第26页
1.420.03x10.31x20.48x30.28x12.
定义在
ˆnewˆold106的收敛性5次迭代就能得到。
9. 一些进一步的扩展
我们目前正在探索的LASSO理念的两个完全不同的应用程序。一个应用程序是基于树的模型,如勒布朗和报道(1994)。不是在分类中修剪一棵大树以及布雷曼博士等人(1984)的分类回归树方法,我们使用LASSO思想对它进行压缩。与本文很像,这涉及到一个约束最小二乘操作,在每个节点上参数为平均对比。约束的进一步设置需要确保压缩模型是一棵树。勒布朗和Tibshirani(1994)报道中的结果显示压缩程序相对修剪能够给出更加精确的树,同时还可以得出可解释的子树。
不同的应用程序是弗里德曼 (1991 年) 提出的多元自适应回归样。方法是一种自适应过程,通过个别变量的线性基函数的产品分段求和构建回归表面。算法建立了一个模型,包括基函数代表的主效应和高阶交互作用。给出了自适应选择的基地,拟合是这些基地上的一个简单的线性回归。那么应用于消除的向后逐步过程久变得不那么重要。
在特雷弗·黑斯蒂的持续工作中,为了动态地生长和修剪MARS模型,我们正在开发一种特殊的LASSO类型的算法。希望这能产生更加精确的MARS模型,该模型也是可以解释的。
LASSO的思想还可以应用到病态的问题中,即该问题中的预测矩阵是非满秩的。为在通过小波函数估计中使用LASSO类型的约束,陈和多诺霍(1994)报道了一些令人鼓舞的结果。
第27页
10. 基于软阈值的结论
T考虑正交设计XXI的特殊情况。LASSO估计有如下形式
ˆsign(ˆo)(ˆo).jjj (13)
这是称为‘软阈值’的估计,该估计是由多诺霍和约翰斯通(1994)提出来的;他们把这个估计应用到测量噪声函数小波变换的系数。然后他们回溯转换得到函数的光滑估计。多诺霍和约翰斯通证实了许多软阈值估计的最优结果,然后将这些结果转换成函数估计的最佳结果。
这里我们的兴趣不在于函数估计,而在于系数本身。这里我们给出多诺霍和约翰斯通的一个结果。结果表明,软阈值估计(LASSO)渐进地与子集选择距离达到一个理想的子集选择器(使用实际性能参数信息)的效果一样的接近。
假设
yiXii
其中
i~N(0,2)并且既定矩阵为正交矩阵。然后有
ˆozjjj (14)
其中
zj~N(0,2).
第28页
我们考虑在均方误差损失的情况下的估计,风险是
ˆ,)Eˆ.R(2
考虑对角线性预测簇
ˆo,)(ˆpTDP(jj)j1
0,1. (15)
这个估计要么保持要么消除一个参数
ˆojˆoj,即它的确是一个子集选择。现在如果我们用
22,我们将会招致一个的风险,以及如果我们用0的估计替换的话,会引发j的风险。
因此j的最佳选择是
I(j),即我们只保持真实系数大于噪声水平的预测值。把这些预测
值的风险叫做RDP:当然因为j是未知的,估计值不能被构造出来。因此RDP是一个我们希望得到的关于风险的较低的边界。
ˆoI(ˆo)jjj多诺霍和约翰斯通(1994)证明,硬阈值(子集选择)估计具有风险
R(,)(2logp1)(2RDP). (16)
12(2logn)这里被选择作为,这个选择给了最小的渐进风险。他们也表明软阈值估计12(2logn)(13),实现了相同的渐进率。
这些结果支持一些线性模型中LASSO的潜在效用。然而,各种办法之间的重大差异往往发生相关的预测因子以及给出在这种情况下似乎是更难获得的理论结果。
第29页
11. 讨论
在本文中,我们提出了一种新的方法(LASSO)用于回归压缩和选择以及广义回归问题。LASSO并不侧重于子集,而是定义一个可以精确产生零系数的连续压缩操作。在本文中,我们提出了一些证据,表明LASSO是子集选择和岭回归的有力竞争者。我们审查了再三个不同场景中不同方法的相对优势:
(a)小数量大效果——子集选择效果最好,LASSO表现不佳,岭回归确实很差;
(b)小到中等大小中等效果——LASSO效果最好,其次是岭回归,然后是子集选择;
(c)大数量小效果——岭回归表现最佳,其次是LASSO,最后是子集选择。
布赖曼的garotte比第一个场景中的LASSO表现好一些,比第二个场景中的稍微差一些。这些结果指的是预测精度。子集选择、LASSO和garotte对于产生可解释模型具有进一步的优势(与岭回归相比)。
在最小二乘回归中还有许多其他的方法实现子集选择和正则化。文献增长太快以至于不能在短时间内试图对其进行总结,所以我们只提最近的几个进展。计算的进步导致了一些有趣的建议,例如乔治和麦克洛克(1993)的吉布斯抽样方法。他们建立了一个分层的贝叶斯模型,然后用吉布斯采样器从后验分布中模拟了大量的子集模型。这允许数据分析师以最大后验概率检测子集模型并且可以在大问题中进行实施。
弗兰克和弗里德曼(1993)讨论了岭回归和子集选择的推广,通过对残差平方和添加
jjq形式的惩罚。这相当于jjtq形式的约束条件;他们称这个为‘桥’。LASSO
第30页
对应于q1。他们建议,js和q的联合估计可能是一个有效的策略,但没有报告任何结果。
图9描绘了两个维度的情况。子集选择对应于q0。值q1比岭回归(q2)接近子集选择更有优势并且也是给出凸区域的q的最小值。此外,q1的线性边界便于优化。
令人鼓舞的研究结果表明,绝对值约束可能被证明是对各种各样的统计估计问题是有用的。需要进一步的研究来调查这些可能性。
图9.
中给定q:(a)q4;(b)q2;(c)q1;(d)q0.5;(e)q0.1的值的常值轮廓
jjq12. 软件
在卡内基梅隆大学的统计计算库档案中,公共领域和SPLUS函数是可用的。这里有线性模型函数,广义线性模型函数和比例风险模型函数。为了得到它们,使用文件传输协议lib.stat.cmu.edu和检索文件S/LASSO,或者向statlib@lib.stat.cmu.edu发送电子邮件,文件中从S发送LASSO。
第31页
因篇幅问题不能全部显示,请点此查看更多更全内容