《偏最小二乘法》PPT課件.ppt
《《偏最小二乘法》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《偏最小二乘法》PPT課件.ppt(23頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第十一章偏最小二乘法,偏最小二乘回歸是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來,它在理論、方法和應(yīng)用方面都得到了迅速的發(fā)展。密西根大學(xué)的弗耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。偏最小二乘回歸方法在統(tǒng)計應(yīng)用中的重要性主要的有以下幾個方面:(1)偏最小二乘回歸是一種多因變量對多自變量的回歸建模方法。(2)偏最小二乘回歸可以較好地解決許多以往用普通多元回歸無法解決的問題。,在普通多元線形回歸的應(yīng)用中,我們常受到許多限制。最典型的問題就是自變量之間的多重共線性。如果采用普通的最小二乘方法,這種變量多重相關(guān)性就會嚴重危害參數(shù)估計,擴大模型誤差,并破壞模型的穩(wěn)定性。變量多重相關(guān)問題十分復(fù)雜,長期以來在理論和方法上都未給出滿意的答案,這一直困擾著從事實際系統(tǒng)分析的工作人員。偏最小二乘回歸中開辟了一種有效的技術(shù)途徑,它利用對系統(tǒng)中的數(shù)據(jù)信息進行分解和篩選的方式,提取對因變量的解釋性最強的綜合變量,辨識系統(tǒng)中的信息與噪聲,從而更好地克服變量多重相關(guān)性在系統(tǒng)建模中的不良作用。,(3)偏最小二乘回歸之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。,偏最小二乘回歸=多元線性回歸分析+典型相關(guān)分析+主成分分析,由于偏最小二乘回歸在建模的同時實現(xiàn)了數(shù)據(jù)結(jié)構(gòu)的簡化,因此,可以在二維平面圖上對多維數(shù)據(jù)的特性進行觀察,這使得偏最小二乘回歸分析的圖形功能十分強大。在一次偏最小二乘回歸分析計算后,不但可以得到多因變量對多自變量的回歸模型,而且可以在平面圖上直接觀察兩組變量之間的相關(guān)關(guān)系,以及觀察樣本點間的相似性結(jié)構(gòu)。這種高維數(shù)據(jù)多個層面的可視見性,可以使數(shù)據(jù)系統(tǒng)的分析內(nèi)容更加豐富,同時又可以對所建立的回歸模型給予許多更詳細深入的實際解釋。,一、偏最小二乘回歸的建模原理和方法,(一)建模原理設(shè)有q個因變量{y1,y2,…,yq}和p個自變量{x1,x2,…,xp}。為了討論兩組變量之間的關(guān)系,觀測了n個樣本點。偏最小二乘回歸開始與典型相關(guān)分析相同,分別在X與Y中提取出主成分。設(shè){t1,t2,…,tr}為{x1,x2,…,xp}的主成分,{u1,u2,…,ur}為{y1,y2,…,yq},其中r=min(p,q)。,(1)t1和u1應(yīng)盡可能大地攜帶他們各自數(shù)據(jù)表中的變異信息;(2)t1和u1的相關(guān)程度能夠達到最大。這兩個要求表明,t1和u1應(yīng)盡可能好的代表數(shù)據(jù)表X和Y,同時自變量的成分t1對因變量的成分u1又有最強的解釋能力。,在第一個成分t1和u1被提取后,偏最小二乘回歸分別實施X對t1的回歸以及Y對t1的回歸。如果回歸方程已經(jīng)達到滿意的精度,則算法終止;否則,將利用X被t1解釋后的殘余信息以及Y被t1解釋后的殘余信息進行第二輪的成分提取。如此往復(fù),直到能達到一個較滿意的精度為止。若最終對X共提取了m個成分{t1,t2,…,tr},偏最小二乘將通過實施Y1,Y2,…,Yq對{t1,t2,…,tr}的回歸,然后再表達成YK關(guān)于原變量X1,X2,…,Xp的回歸方程,其中k=1,2,…,q。,(二)計算方法推導(dǎo),首先將數(shù)據(jù)做標(biāo)準(zhǔn)化處理。設(shè)X組變量標(biāo)準(zhǔn)化的觀測值矩陣為,設(shè)Y組變量標(biāo)準(zhǔn)化的觀測值矩陣為,求X組變量的第一主成分t1,w1為第一主成分的系數(shù)向量,w1是一個單位向量。t1=X0w1求Y組變量的第一主成分t1,c1為第一主成分的系數(shù)向量,c1是一個單位向量。u1=Y0c1有Var(t1)=maxVar(u1)=max?(t1,u1)=max,因此綜合起來,在偏最小二乘回歸中,我們要求與的協(xié)方差達到最大,既,(1)求w1和c1,對Q分別求關(guān)于c1,w2,?1,?2和的偏導(dǎo)并令之為零,有,采用拉格朗日乘數(shù)法,討論有約束條件的極值問題。,可以推出,則,,記,可得,,可見,w1是矩陣的特征向量,對應(yīng)的特征值為。所以w1是對應(yīng)于矩陣最大特征值的單位特征向量。而另一方面,c1是對應(yīng)于矩陣最大特征值的單位特征向量c1。,注意這里t1和u1分別為n維向量,是n個個案在兩組變量的主成分的取值。,分別求X0和Y0對t1和u1的兩個回歸方程,,,,根據(jù)最小二乘估計的原理,則,稱?1為模型效應(yīng)載荷量。,2.建立回歸方程,3.用殘差代替X0和Y0的進行以上的工作,在第二步工作中,由于第一對主成分并未將相關(guān)的信息提取完,所以需要再重復(fù)第一步工作,在殘差矩陣E0和F0中再提取第二對主成分。,分別求E1和F1對t2和u2的兩個回歸方程,即,,,,根據(jù)最小二乘估計的原理,則,進而有,4.設(shè)n?p數(shù)據(jù)觀測矩陣的秩為r=min(n,p),則存在r個成分t1,t2,…,tr。使得,將(3)式代入(2)式,并合并同類項,非標(biāo)準(zhǔn)化的偏最小二乘回歸方程為,5.抽取主成分個數(shù)l的確定,至于抽取幾個主成份進行偏最小二乘模型,需要進行進一步的檢驗。當(dāng)然一定小于r。我們首先定義殘差平方和其中i為第i個樣本點,j為第j個指標(biāo),k為主成分的個數(shù)。通常情況下,選擇使殘差平方和最小的個數(shù)l。有四種方法。,(1)舍一交叉驗證法,依次舍去第i(i=1,2,…,n)個樣本點,用余下的n-1個樣本點做偏最小二乘回歸模型,并預(yù)測相應(yīng)的,k為主成分的個數(shù)。,選擇使PRESS(k)最小的主成分的個數(shù)。,(2)分批交叉驗證法,分批交叉驗證法是每次留下q個觀測作為檢驗數(shù)據(jù),q=1是為“舍一交叉驗證方法”。類似按預(yù)測殘差平方和達到最小的主成分個數(shù)。,(3)分裂樣本交叉驗證法,與分批交叉驗證法不同的是分裂樣本法所扣留的樣本不是連續(xù)的,而是燈具抽取的。例如第一次抽{1,11,…},第二次抽{2,12,22,…}等等。然后再根據(jù)預(yù)測殘差平方和最小的原則,確定主成份的個數(shù)l。,(4)隨機樣本交叉驗證,按隨機的原則來扣留樣本,再根據(jù)預(yù)測殘差平方和最小的原則,確定主成份的個數(shù)。,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 偏最小二乘法 最小二乘法 PPT 課件
鏈接地址:http://zhongcaozhi.com.cn/p-11501503.html