社會科學研究方法(全套課件)
社會科學研究方法(全套課件),社會科學,研究,鉆研,方法,法子,全套,課件
回歸分析,,一、什么是計量經(jīng)濟學,計量經(jīng)濟學是以經(jīng)濟理論和經(jīng)濟數(shù)據(jù)的事實為依據(jù),運用數(shù)學和統(tǒng)計學的方法,通過建立數(shù)學模型來研究經(jīng)濟數(shù)量關系和規(guī)律的一門經(jīng)濟學科。,理論:經(jīng)濟理論,即所研究對象的經(jīng)濟行為理論 ——計量經(jīng)濟研究的基礎 數(shù)據(jù):對所研究對象及相關現(xiàn)象觀測得到的信息 ——計量經(jīng)濟研究的原料或依據(jù) 方法:模型方法與計算方法 ——計量經(jīng)濟研究的工具與手段,三個要素,變量間的關系,①不線性相關并不意味著不相關; ②有相關關系并不意味著一定有因果關系; ③回歸分析/相關分析研究一個變量對另一個(些)變量的統(tǒng)計依賴關系,但它們并不意味著一定有因果關系。 ④相關分析對稱地對待任何(兩個)變量,兩個變量都被看作是隨機的?;貧w分析對變量的處理方法存在不對稱性,即區(qū)分應變量(被解釋變量)和自變量(解釋變量):前者是隨機變量,后者不是。,回歸分析(regression analysis)是研究一個變量關于另一個(些)變量的具體依賴關系的計算方法和理論。 其用意:在于通過后者的已知或設定值,去估計和(或)預測前者的(總體)均值。 這里:前一個變量被稱為被解釋變量(Explained Variable)或應變量(Dependent Variable),后一個(些)變量被稱為解釋變量(Explanatory Variable)或自變量(Independent Variable)。,二、回歸分析,回歸分析構(gòu)成計量經(jīng)濟學的方法論基礎,其主要內(nèi)容包括: (1)根據(jù)樣本觀察值對經(jīng)濟計量模型參數(shù)進行估計,求得回歸方程; (2)對回歸方程、參數(shù)估計值進行顯著性檢驗; (3)利用回歸方程進行分析、評價及預測。,由于變量間關系的隨機性,回歸分析關心的是根據(jù)解釋變量的已知或給定值,考察被解釋變量的總體均值,即當解釋變量取某個確定值時,與之統(tǒng)計相關的被解釋變量所有可能出現(xiàn)的對應值的平均值。,例1:一個假想的社區(qū)有100戶家庭組成,要研究該社區(qū)每月家庭消費支出Y與每月家庭可支配收入X的關系。 即如果知道了家庭的月收入,能否預測該社區(qū)家庭的平均月消費支出水平。,1、總體回歸函數(shù),為達到此目的,將該100戶家庭劃分為組內(nèi)收入差不多的10組,以分析每一收入組的家庭消費支出。,(1)由于不確定因素的影響,對同一收入水平X,不同家庭的消費支出不完全相同;,(2)但由于調(diào)查的完備性,給定收入水平X的消費支出Y的分布是確定的,即以X的給定值為條件的Y的條件分布(Conditional distribution)是已知的,如: P(Y=561|X=800)=1/4。,因此,給定收入X的值Xi,可得消費支出Y的條件均值(conditional mean)或條件期望(conditional expectation): E(Y|X=Xi) 該例中:E(Y | X=800)=605,描出散點圖發(fā)現(xiàn):隨著收入的增加,消費“平均地說”也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱為總體回歸線。,,回歸函數(shù)(PRF)說明被解釋變量Y的平均狀態(tài)(總體條件期望)隨解釋變量X變化的規(guī)律。,總體回歸函數(shù)(population regression function, PRF),2、隨機擾動項,總體回歸函數(shù)說明在給定的收入水平Xi下,該社區(qū)家庭平均的消費支出水平。 但對某一個別的家庭,其消費支出可能與該平均水平有偏差。,稱?i為觀察值Yi圍繞它的期望值E(Y|Xi)的離差(deviation),是一個不可觀測的隨機變量,又稱為隨機干擾項(stochastic disturbance)或隨機誤差項(stochastic error)。,記,,個別家庭的消費支出為:,(1)該收入水平下所有家庭的平均消費支出E(Y|Xi),稱為系統(tǒng)性(systematic)或確定性(deterministic)部分。 (2)其他隨機或非確定性(nonsystematic)部分?i。,(*),隨機誤差項主要包括下列因素的影響,1)在解釋變量中被忽略的因素的影響; 2)變量觀測值的觀測誤差的影響; 3)模型關系的設定誤差的影響; 4)其它隨機因素的影響。,3、樣本回歸函數(shù)(SRF),問題:能從一次抽樣中獲得總體的近似的信息嗎?如果可以,如何從抽樣中獲得總體的近似信息?,問:能否從該樣本估計總體回歸函數(shù)PRF?,在例1的總體中有如下一個樣本,,總體的信息往往無法掌握,現(xiàn)實的情況只能是在一次觀測中得到總體的一個樣本。,樣本的散點圖(scatter diagram):,樣本散點圖近似于一條直線,畫一條直線以盡好地擬合該散點圖,由于樣本取自總體,可以該線近似地代表總體回歸線。該線稱為樣本回歸線(sample regression lines)。,,記樣本回歸線的函數(shù)形式為:,稱為樣本回歸函數(shù)(sample regression function,SRF)。,這里將樣本回歸線看成總體回歸線的近似替代,則,注意:,三、回歸估計,,Y為被解釋變量,X為解釋變量,?0與?1為待估參數(shù), ?為隨機干擾項,i=1,2,…,n,一元線性回歸模型:只有一個解釋變量,1、線性回歸模型的基本假設,假設1、解釋變量X是確定性變量,不是隨機變量; 假設2、隨機誤差項?具有零均值、同方差和不序列相關性: E(?i)=0 i=1,2, …,n Var (?i)=??2 i=1,2, …,n Cov(?i, ?j)=0 i≠j i,j= 1,2, …,n 假設3、隨機誤差項?與解釋變量X之間不相關: Cov(Xi, ?i)=0 i=1,2, …,n 假設4、?服從零均值、同方差、零協(xié)方差的正態(tài)分布 ?i~N(0, ??2 ) i=1,2, …,n,經(jīng)典假設或高斯(Gauss)假設,2、估計參數(shù)的最小二乘法,1. 最小二乘法——使因變量的觀察值與估計值之間的離差平方和達到最小來求得 a和b的方法,即:,,,,,,,,殘差(Residual):e,,a 和 b 的計算公式,根據(jù)最小平方法的原則,利用微分求解極值(最優(yōu)值)的原理,可得求解 a 和 b 的標準方程組如下:,例子,四、回歸估計的檢驗,可決系數(shù)的檢驗 回歸系數(shù)的T檢驗 F檢驗 計量經(jīng)濟學其他檢驗:異方差、多重共線性等,1、判定系數(shù),對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差來表示。,變差來源于兩個方面: 1、由于自變量 x 的取值不用造成的; 2、除 x 以外的其他因素(包括 x 對 y 的非線性影響、測量誤差等)的影響。,(一)變差或離差,離差的分解圖,a + b x,2) 兩端平方后求和有:,1)從圖上看有:總變差=回歸變差+剩余變差,記為: SST = SSR + SSE 或 Lyy =U+Q,(SST-Sum of squares of total ) 反映因變量的 n 個觀察值與其均值的總離差,總離差平方和SST,(SSR-Sum of squares of regression ) 反映自變量 x 的變化對因變量 y 取值變化的影響,或者說,是由于x與y之間的線性關系引起的y的取值變化。,回歸平方和SSR,(SSE- Sum of squares of errors ) 反映除 x 以外的其他因素對 y 取值的影響。,殘差平方和SSE,(二)判定系數(shù)(決定系數(shù)r 2 ),判定系數(shù)=回歸平方和占總離差平方和的比例,對于一元回歸,判定系數(shù)=相關系數(shù)的平方,即r2=(r)2 反映回歸直線的擬合程度,衡量變量之間的相關程度。 取值范圍在 [ 0 , 1 ] 之間。 r2 ?1,說明回歸方程擬合效果越好; r2?0,說明回歸方程擬合得越差。,調(diào)整的可決系數(shù)(adjusted coefficient of determination),在樣本容量一定的情況下,增加解釋變量必定使得自由度減少,所以調(diào)整的思路是:將殘差平方和與總離差平方和分別除以各自的自由度,以剔除變量個數(shù)對擬合優(yōu)度的影響:,其中:n-k-1為殘差平方和的自由度,n-1為總體平方和的自由度。,,,,,,當 SSR = SST 時,為完全的擬合,殘差平方和為 0 ,判定系數(shù)為 1 。,,,,,當 SSE= SST 時,為最差的擬合,殘差平方和最大 ,判定系數(shù)為 0 。,2、變量的顯著性檢驗,回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個顯著性的影響因素。 在一元線性模型中,就是要判斷X是否對Y具有顯著的線性性影響。這就需要進行變量的顯著性檢驗。,變量的顯著性檢驗所應用的方法是數(shù)理統(tǒng)計學中的假設檢驗。 計量經(jīng)計學中,主要是針對變量的參數(shù)真值是否為零來進行顯著性檢驗的。,檢驗步驟:,(1)對總體參數(shù)提出假設 H0: ?1=0, H1:?1?0,(2)以原假設H0構(gòu)造t統(tǒng)計量,并由樣本計算其值,(3)給定顯著性水平?,查t分布表,得臨界值t ?/2(n-2),(4) 比較,判斷 若 |t| t ?/2(n-2),則拒絕H0 ,接受H1 ; 若 |t|? t ?/2(n-2),則拒絕H1 ,接受H0 ;,3、方程的顯著性檢驗(F檢驗),方程的顯著性檢驗,旨在對模型中被解釋變量與解釋變量之間的線性關系在總體上是否顯著成立作出推斷。,即檢驗模型 Yi=?0+?1X1i+?2X2i+ ? +?kXki+?i i=1,2, ?,n 中的參數(shù)?j是否顯著不為0。,可提出如下原假設與備擇假設:,H0: ?0=?1=?2= ? =?k=0 H1: ?j不全為0,根據(jù)數(shù)理統(tǒng)計學中的知識,在原假設H0成立的條件下,統(tǒng)計量,服從自由度為(k , n-k-1)的F分布,給定顯著性水平?,可得到臨界值F?(k,n-k-1),由樣本求出統(tǒng)計量F的數(shù)值,通過 F? F?(k,n-k-1) 或 F?F?(k,n-k-1) 來拒絕或接受原假設H0,以判定原方程總體上的線性關系是否顯著成立。,3、計量經(jīng)濟學檢驗,多重共線性 異方差 自相關,引子:發(fā)展農(nóng)業(yè)和建筑業(yè)會減少財政收入嗎?,為了分析各主要因素對財政收入的影響,建立財政收 入模型: 其中: CS財政收入(億元) ; NZ農(nóng)業(yè)增加值(億元); GZ工業(yè)增加值(億元); JZZ建筑業(yè)增加值(億元); TPOP總?cè)丝?萬人); CUM最終消費(億元); SZM受災面積(萬公頃) 數(shù)據(jù)樣本時期1978年-2003年(資料來源:《中國統(tǒng)計年鑒2004》,中國統(tǒng)計出版社2004年版) 采用普通最小二乘法得到以下估計結(jié)果,,財政收入模型的EViews估計結(jié)果,,,,,,,,,●可決系數(shù)為0.995,校正的可決系數(shù)為0.993,模型擬合很好。模型對財政收入的解釋程度高達99.5%。 ●F統(tǒng)計量為632.10,說明0.05水平下回歸方程整體上顯著。 ● t 檢驗結(jié)果表明,除了工業(yè)增加值和總?cè)丝谝酝?,其他因素對財政收入的影響均不顯著。 ●農(nóng)業(yè)增加值和建筑業(yè)增加值的回歸系數(shù)是負數(shù)。 農(nóng)業(yè)和建筑業(yè)的發(fā)展反而會使財政收入減少嗎?! 這樣的異常結(jié)果顯然與理論分析和實踐經(jīng)驗不相符。 若模型設定和數(shù)據(jù)真實性沒問題,問題出在哪里呢?,模型估計與檢驗結(jié)果分析,一、多重共線性的概念,對于模型 Yi=?0+?1X1i+?2X2i+?+?kXki+?i i=1,2,…,n 其基本假設之一是解釋變量是互相獨立的。,如果某兩個或多個解釋變量之間出現(xiàn)了相關性,則稱為多重共線性(Multicollinearity)。,多重共線性檢驗的任務是: (1)檢驗多重共線性是否存在; (2)估計多重共線性的范圍,即判斷哪些變量之間存在共線性。,多重共線性表現(xiàn)為解釋變量之間具有相關關系,所以用于多重共線性的檢驗方法主要是統(tǒng)計方法:如判定系數(shù)檢驗法、逐步回歸檢驗法等。,二、多重共線性的檢驗,1、檢驗多重共線性(程度),(1)若 在OLS法下:R2與F值較大,但t檢驗值較小,說明各解釋變量對Y的聯(lián)合線性作用顯著,但各解釋變量間存在共線性而使得它們對Y的獨立作用不能分辨,故t檢驗不顯著。 是多重共線性的典型特征,,(2)相關系數(shù)檢驗法:解釋變量有高度的兩兩相關。 判定標準0.8 是多重共線性的充分而非必要條件。因此 在兩個解釋變量條件下可靠,超過兩個解釋變量時不準確。,,(3) 判定系數(shù)檢驗法(輔助回歸法) 使模型中每一個解釋變量分別以其余解釋變量為解釋變量進行回歸,并計算相應的擬合優(yōu)度。 如果某一種回歸 Xji=?1X1i+?2X2i+??LXLi 的判定系數(shù)較大,說明Xj與其他X間存在共線性。,在模型中排除某一個解釋變量Xj,估計模型; 如果擬合優(yōu)度與包含Xj時十分接近,則說明Xj與其它解釋變量之間存在共線性。,另一等價的檢驗是:,(4)逐步回歸法,以Y為被解釋變量,逐個引入解釋變量,構(gòu)成回歸模型,進行模型估計。 根據(jù)擬合優(yōu)度的變化決定新引入的變量是否獨立。 如果擬合優(yōu)度變化顯著,則說明新引入的變量是一個獨立解釋變量; 如果擬合優(yōu)度變化很不顯著,則說明新引入的變量與其它變量之間存在共線性關系。,(5)方差擴大(膨脹)因子法,,經(jīng)驗規(guī)則,●方差膨脹因子越大,表明解釋變量之間的多重共性越嚴重。反過來,方差膨脹因子越接近于1,多重共線性越弱。 ●經(jīng)驗表明,方差膨脹因子≥10時,說明解釋變量與其余解釋變量之間有嚴重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計。,找出引起多重共線性的解釋變量,將它排除 以逐步回歸法得到最廣泛的應用。 注意: 剩余解釋變量參數(shù)的經(jīng)濟含義和數(shù)值都發(fā)生了變化。若剔除了重要變量,可能引起模型的設定誤差。,如果模型被檢驗證明存在多重共線性,則需要發(fā)展新的方法估計模型,最常用的方法有三類。,四、克服多重共線性的方法,1、第一類方法:排除引起共線性的變量,2、其他方法:增加樣本容量、合并指標等或容忍,案例——中國糧食生產(chǎn)函數(shù),根據(jù)理論和經(jīng)驗分析,影響糧食生產(chǎn)(Y)的主要因素有: 農(nóng)業(yè)化肥施用量(X1);糧食播種面積(X2) 成災面積(X3); 農(nóng)業(yè)機械總動力(X4); 農(nóng)業(yè)勞動力(X5),已知中國糧食生產(chǎn)的相關數(shù)據(jù),建立中國糧食生產(chǎn)函數(shù): Y=?0+?1 X1 +?2 X2 +?3 X3 +?4 X4 +?4 X5 +?,1、用OLS法估計上述模型:,R2接近于1; 給定?=5%,得F臨界值 F0.05(5,12)=3.11 F=638.4 15.19, 故認為上述糧食生產(chǎn)的總體線性關系顯著成立。 但X4 、X5 的參數(shù)未通過t檢驗,且符號不正確,故解釋變量間可能存在多重共線性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),2、檢驗簡單相關系數(shù),發(fā)現(xiàn): X1與X4間存在高度相關性。,列出X1,X2,X3,X4,X5的相關系數(shù)矩陣:,3、找出最簡單的回歸形式,可見,應選第1個式子為初始的回歸模型。,分別作Y與X1,X2,X3,X4,X5間的回歸:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12,(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36,4、逐步回歸,將其他解釋變量分別導入上述初始回歸模型,尋找最佳回歸方程。,回歸方程以Y=f(X1,X2,X3)為最優(yōu):,5、結(jié)論,二、異方差,,對于模型,如果出現(xiàn),即對于不同的樣本點,隨機誤差項的方差不再是常數(shù),而互不相同,則認為出現(xiàn)了異方差性(Heteroskedasticity)。,一、異方差的概念,當多元回歸的時候:,先ols 然后計算殘差,計算殘差平方 繪制散點圖:變量為殘差平方和自變量 根據(jù)圖形判斷是否有異方差 其他方法:white檢驗,三、自相關,回歸方程殘差具有相關性 常用檢驗方法:DW檢驗,DW檢驗決策規(guī)則,,用坐標圖更直觀表示DW檢驗規(guī)則:,,異方差的解決 廣義差分法,,,
收藏