社會科學研究方法(全套課件)
社會科學研究方法(全套課件),社會科學,研究,鉆研,方法,法子,全套,課件
實證研究方法與軟件,Chapter7 數據分析一:單變量分析,一、資料簡化的基本技術 二、集中趨勢測量 三、離散趨勢測量 四、單變量推論統計,1、頻數分布 2、頻率分布 3、累計頻數和累計百分率 4、對比值,一、數據簡化的基本技術,所謂頻數分布(Frequency Distribution),是指一組數據中取不同值的個案的次數分布情況,通常以頻數分布表的形式表達。 頻數分布表的主要作用是簡化資料,可以清楚地了解到調查數據所放映出的信息。,1、頻數分布(簡寫f),2、頻率分布(簡寫%) 所謂頻率分布(Percentages Distribution),指的就是一組數據中不同取值的頻數相對于總數的比率分布情況。 頻數分布是不同類別在總體中的絕對數量分布,而頻率分布則是不同類別在總體中的相對分布(相對比重)。 通過頻率分布,可以比較同一類別在不同整體中的分布情況的異同。,累計次數(簡寫成cf),就是把次數向上或向下逐級累加起來,向上的叫向上累計次數(cf↑),向下的叫向下累計次數(cf↓)。 累計百分率(簡寫成c%),就是把各級的百分率數值向上或向下逐級累加起來。 適用于定序、定距層次而不適用于定類層次的統計分析方法。,3、累計頻數和累計百分率,調查對象文化程度分布,4、對比值,所謂對比值就是兩變量值的比值。 例如某大學有男生18000人、女生6000人,則該校男生與女生的對比值就是3:1,即每有1名女生就有3名男生。 新生人口的性別比通常用對比值表示。如新生嬰兒性別比為108,即表示新生男、女嬰兒比為108 :100,亦即每出生100名女嬰,就有108名男嬰出生。,,比 例: 百分率: 千分率: 萬分率:,,,,二、 統計數據的表現形式,統計表 (一)統計表的構成 按形式: 標題——總標題、橫欄標題、 縱列標題、 指標數值 按內容: 主詞 主欄 賓詞 賓欄,例2.9 中國1999年國內生產總值,,,主詞,賓詞,,橫行標題,縱行標題,,,總標題,(二)統計表的分類,按主詞是否分組及分組標志的多少: 1、簡單表:未經整理分組的統計表 2、分組表:按一個標志分組的統計表 3、復合表:按兩個以上標志分組的統計表,例2.10 中國1999年國內生產總值,交叉分組列表是一種可以同時概括兩個變量的數據的方法。,復合表:交叉分組列表,表格的左邊和上邊分別表示: 兩個變量的分組情況。,居住狀態(tài) 口味感覺 1 長住者 味道好 2 長住者 味道好 3 長住者 味道不好 4 暫住者 味道不好 5 長住者 味道好 6 長住者 味道好 7 暫住者 味道好 8 暫住者 味道不好 9 暫住者 味道不好 10 長住者 味道好,居住狀態(tài) 口味感覺 11 暫住者 味道好 12 暫住者 味道好 13 長住者 味道好 14 長住者 味道好 15 長住者 味道不好 16 暫住者 味道不好 17 暫住者 味道好 18 暫住者 味道好 19 長住者 味道不好 20 長住者 味道不好,某飯店顧客滿意情況調查,(三)統計表的編制規(guī)則,1、統計表一般左右兩端不封閉; 2、統計表的標題要力求簡明、確切; 3、內容簡明,不要羅列太多和過于龐雜; 4、統計表欄數較多時,須加編號; 5、數字填寫規(guī)則; 6、計量單位填寫規(guī)則; 7、應注明注解或資料來源。,不同的刻度,圖形的改善,多余的筆墨,50年前,現在,A國,B國,A國,B國,驚人的人口增長,二、集中趨勢測量,所謂集中趨勢測量法,就是找出一個典型值或代表值來代表變量的分布,以反映這組數據向這個典型值集結的情況。 當根據這個典型值來估計或預測每個研究對象(即個案)的數值時,所發(fā)生的錯誤的總和是最小的。,,1.眾數(Mode) 2.中位數(Median) 3.均值(Mean),所謂眾數(簡寫成Mo),簡單說就是一組數據中出現次數最多的值。 求眾數的步驟是這樣: 首先將原始數據制成頻數分布表; 然后在頻數一欄中找出最大的頻數; 最后找到最大的頻數所對應的標志值,這一標志值就是眾數。,1.眾數(Mode),Mo=瓦房店市,由組距分組資料求眾數的方法:組中值法 首先也通過觀察找出最高的頻數; 然后根據最高的頻數找到它所對應的組; 最后求出該組的組中值即為眾數。 眾數適合于分析定類變量,當然也可以用來分析定序、定距變量的資料。,,Mo=7500or 公式,所謂中位數(簡寫成Md),就是在一個按值的大小順序排列的序列中位于中央位置的哪個數值。 其意義是:在整個數據中,有一半數據的值在它之上(比它大),另一半數據的值在它之下(比它小)。,2.中位數(Median),求算中位數的步驟是:先將各個數值按由小到大的順序排列起來,然后找出位于中央位置的那個值,即中位數。 某班5名學生的年齡由小到大排列如下: 16,17,18,19,20 Md位置=,(1)根據原始數據求算中位數,,,某班有6名學生,其年齡由小到大分別是:16,17,18,19,20,21 則Md位置=(6+1)/2=3.5, 即中央位置位于第三學生和第四學生之間, 所以Md=(18+19)/2=18.5。,在一組數據中,可能有許多相同的數值。如果是這種情況,可以先統計出次數分布,然后求出中位數。 其步驟也是先求出數據序列的中間位置,然后再找出其所對應的值即中位數。 某班有35名學生,其年齡分布在17—20歲之間,各年齡的人數如表4-8所示。求該班學生年齡分布的中位數?,某班學生年齡情況的頻數分布表,第一步是先算出中位數所在的中央位置:Md位置=(35+1)/2=18,即第18個數值所在位置。 第二步就是列出累加次數,可以從上到下列出向上累加次數(如表中第三列),也可以從下往上列出向下累加次數(如表中第四列)。 第三步我們從上往下找(或從下往上找),看所計算出的中間位置最先落入哪個累加次數內,再由此找出相對應的中位數。,具體方法是先列出累加次數,然后按上述方法確定中位數所在的組,最后利用下述公式計算出中位數的值: 中位數Md= L為中位數所在組的下限值,N為全部個案數目, 為中位數所在組的頻數, 為中位數所在組前一組的累計次數,w為中位數所在組的組距。,(2)用分組資料求算中位數,,,,某系有100名學生,調查資料顯示各學生的月均生活費在100—800元之間,以100元為間距分組統計結果如下表所示:,某系學生月均生活費情況頻數分布表,,,根據上表來求中位數: 第一步,列出向上累加次數(表中第四列數值),然后求出中位數的位置: Md位置=(100+1)/2=50.5 第二步,根據向上累加次數分布,第50.5個數值在第三組即300—400的組內。 第三步,利用上述公式計算出中位數的值:,中位數=,,=391(元),均值即平均數是使用的最多的統計值。 定距變量數據可以做加減運算,因此可以將變量的各個數值加起來,所得之和再除以調查對象數目,求得一個平均的數值,這就是平均數(簡寫成 )。,3.均值(Mean),,(1)根據原始數據求算平均數。這種情況下求算平均數的公式是:,,其中Σx表示各個個案數值之和,n表示全部個案數目。,某班8名學生的年齡分別是: 18、19、20、21、20、18、17 根據公式他們的平均年齡是: =(18+19+19+20+21+20+18+17)/8=19 從這個結果知這8名學生的平均年齡是19歲。,,平均數表明了資料的集中趨勢,有估計或預測作用。例如從8名學生中任意抽取一名學生,應估計其年齡是19歲。從長遠來看,用平均數來估計定距變量的資料,可能犯的錯誤最小。,當一組數據中出現很多相同的數值時,則可以先統計出次數(f)的分布,再求取次數與相對應標志值之間的乘積(fx),然后用各個乘積的總和除以個案總數(即頻數之和)得出平均數,其公式是:,,,可見該班學生的平均年齡是18.3歲。,某班學生年齡情況的頻數分布表,在調查收入、年齡等方面情況時,常常得到組距形式的資料。這種情況下求算平均數的公式是:,(2)根據分組資料求出平均數,,,其中f表示每組的次數, 表示組中值,n表示個案數。,,某系學生月均生活費情況頻數分布表,,,小結:,總的來說,如果對調查資料進行集中趨勢測量,一般情況下: 定類變量的測量可以用眾數; 定序變量可以用眾數,但以中位數較適宜,; 定距變量可以用眾數,也可以用中位數,但以平均數最適宜。,三、離散趨勢測量,所謂離散趨勢測量,就是求出特別的數值來表示一個變量的個案與個案之間的差異情況,反映這一組數據相互之間的離散程度。 這種測量方法,與集中趨勢測量法相互補充,從兩個不同的側面描述和揭示一組數據的分布情況,共同反映出資料分布的特征。,集中趨勢測量法所求出的是一個最能代表變量數據資料集中情況的值,但其代表性往往取決于個案之間的差異情況,即離散程度。如果個案相互之間的差異很大,那么眾數、中位數或平均數的代表性就會大打折扣。,某學校舉行智力競賽,各系選派5名學生參加。結果其中有三個系的成績分別如下: 社科系:76 78 81 82 83 數學系:62 74 80 86 98 化學系:32 78 91 99 100,,雖然這三個系參賽隊的平均成績都是80分,但顯然這個80分對社科系參賽隊選手的成績的代表性最高,而對化學系參賽隊選手的代表性最低。,離散指標,1、定類變量:異眾比率(V) 2、定序變量:四分位差(Q) 3、定距變量:全距(極差)標準差(S)(方差 S2) 4、離散系數CV,1.定類變量:異眾比率(V),所謂異眾比率(簡寫成V),就是一組數據中非眾數的次數相對于總體全部個案的比例。其計算公式是:,,N是全部個案數目, 是眾數的次數,二者之差(N- )就是非眾數的次數。,,例:前述大連市公眾科學素養(yǎng)調查調查對象居住地中,Mo=瓦房店市,其異眾比率為:,,當異眾比率越大,眾數的代表性也就越小。 當異眾比率越小,則眾數的代表性就越大。,,,2.定序變量:四分位差(Q),所謂四分位差,就是先將一組數據由小到大排列起來,然后將其四等分(即每個等分包含25%的個案),則第一個四分位置的值(Q1)與第三個四分位置的值(Q3)的差異,就是四分位差(簡寫成Q)。,,,,,,,Q1,Q2(Md),Q3,25%,25%,25%,25%,Q=Q3-Q1,在上圖所表示的四個等分中,Q2就是中位數(Md),其兩邊各有50%的個案。而且在中位數的兩旁的Q1和Q3之間,也共有50%(25%+25%)的個案。 四分位差的意義就在于,Q1與Q3的差異越大,即四分位差越大,就表示有50%的個案分布就越遠離中位數,因而中位數的代表性就越小,用它來估計或預測所犯的錯誤就會越大。,求算四分位差時。首先要求出Q1的位置和Q3的位置,公式分別是:,,然后計算出在這兩個位置上的值的差異,結果即四分位差。,例: 某甲班11名學生年齡如下:17歲、18歲、18歲、19歲、19歲、20歲、20歲、21歲、21歲、22歲、22歲, 求其四分位差。,第一步:求出Q1、Q3的位置,,,第二步:找到數值數列中Q1、Q3所對應的數值 Q1=18 Q3=21,第三步:計算出四分位差 Q=Q3-Q1=21-18=3,3.定距變量:標準差(S)(方差 S2),對于定距變量,測量離散程度最簡單的方法是計算全距(又叫極差),即一組數據中最大值與最小值之差。 社科系:83-76=7(分) 數學系:98-62=36(分) 化學系:100-32=68(分) 由于全距只考慮兩個極端的數值,而沒有考慮到其它數值,因此代表性不高。,所謂標準差(簡寫成S),就是先將一組數據中各數據(x)與其平均數( )之差的平方和除以全部個案數目(N),再取其平方根。其計算公式為:,,,,公式中,x與 的差就表示以平均數為代表值時會引起的偏差或錯誤。,,如果公式不開方,即方差S2,含義相同。,標準差的意義就在于,如果其值越大,即各個數值與平均數的差的總和越大,就表明變量數值的離散程度越大,而平均數的代表性就越低; 相反,標準差的值越小,就表明變量數值的離散程度越小,而平均數的代表性也就越高。,(1)根據原始數據求算標準差:直接運用公式,,,,,,,,對于有頻數分布的資料,求算其標準差的公式稍有不同:,,,其中f是x所對應的頻數。,某班學生年齡情況的頻數分布表,,,(2)根據組距分組資料求算標準差,這種情況下求算標準差的公式如下:,,,其中 是每一組的組中值,f是該組的次數。,,某系學生月均生活費情況頻數分布表,,,4、離散系數CV,離散系數也稱為變差系數,是一種相對的離散量數。它使我們能夠對同一總體中兩種不同的離散量數進行比較,或者對兩個不同總體中的同一離散量數進行比較。 定義(計算):標準差與平均數的比值,用百分比表示。,,例:一項調查結果,某市人均月收入為920元,標準差為170元;人均住房面積為12平方米,標準差為2.5平方米。試比較該市人均月收入和人均住房情況哪一個差異程度比較大。,人均月收入的離散系數為:,,人均住房面積的離散系數為:,,例:對廣州和武漢兩地居民生活質量調查發(fā)現,廣州居民月平均收入為2500元,標準差為450元;武漢居民平均收入為1500元,標準差為350元。試比較,廣州市和武漢市居民相互之間收入差異程度哪個更大一些。,,,案例 大學畢業(yè)生表現,1、問題的提出 振興大學是一所綜合性大學,有三個附屬學院,分別是商貿學院、生物學院和醫(yī)學院。近期該校管理層為了了解社會對本校學生的滿意程度,以此促進本校教學改革,進行了一項對本校畢業(yè)生的調查。調查者隨機抽查了48名畢業(yè)生組成樣本,要求他們所在的工作單位對其工作表現、專業(yè)水平和外語水平三個方面的表現進行評分,評分由0到10,分值越大表明滿意程度越高。收集有關樣本數據如表3-1和表3-2。,續(xù)前表,表3-2 分學院評分匯總表,校管理層希望在調查分析報告中闡述以下幾個問題: 用人單位對該校畢業(yè)生哪個方面最為滿意?哪個方面最不滿意?應在哪些方面做出教學改革? 用人單位對該校畢業(yè)生哪個方面的滿意程度差別最大?什么原因產生的? 社會對三個學院的畢業(yè)生的滿意程度是否一致?能否提出提高社會對該校畢業(yè)生的滿意程度的建議?,2、數據描述和分析,(1)從圖一可看出,隨機抽取的48名學生是由附屬商貿學院、生物學院和醫(yī)學院畢業(yè)生組成,各學院學生畢業(yè)生人數分別是17人、17人和14人,分別占樣本的35.4%、35.4%和29.2%,可見各學院抽取畢業(yè)生人數大致相同,樣本具有一定代表性。,表3-3 48名畢業(yè)生描述統計表,(2)從表3-3可以看出: 用人單位對振興大學畢業(yè)生的工作表現評估分最高,而外語水平評估分最低。兩者的平均評估分相差2.96分,由此可見用人單位最滿意該校畢業(yè)生的工作表現,最不滿意畢業(yè)生的外語水平。這反映出畢業(yè)生適應能力比較強,也反映出振興大學在培養(yǎng)學生社會實踐能力方面卓有成效。從用人單位對畢業(yè)生外語水平評分普遍偏低看,反映出該校的外語教學方面存在嚴重問題,今后需要在外語方面加大力度進行改革。,用人單位對振興大學畢業(yè)生的外語水平評估分差異最大,樣本評估分的標準差為1.77分,畢業(yè)生的外語水平評估分最高達9分,最低才2分,相差7分,這說明了振興大學畢業(yè)生外語程度相差懸殊,參差不齊,這可能是該校在招生中忽視對學生外語成績的考慮所致。,,,,商貿學院,生物學院,醫(yī)學院,表3-4,(3)用人單位對三個學院的畢業(yè)生評價是不一致的: 工作表現方面:三個學院畢業(yè)生在這一方面的表現相差不大,均達到了8分以上,受到用人單位好評。評估分最高的是醫(yī)學院的畢業(yè)生,平均分為8.14分,標準差為0.95分,是三個學院中離散程度最小的,可見該學院畢業(yè)生工作表現普遍較好。 專業(yè)水平方面:用人單位對三個學院畢業(yè)生專業(yè)方面的評價相差較大。評估分最高的同樣是醫(yī)學院的畢業(yè)生,平均分為7.21分,高出樣本總平均分0.83分,比生物學院高0.80分,比商貿學院則高出1.39分;商貿學院畢業(yè)生的評分最低,平均分僅為5.82分,低于樣本平均分0.56分,但該學院評估分標準差為0.95分,是三個學院中最低的,說明該院學生在專業(yè)水平上的表現差別不大。 外語水平方面:三個學院外語水平都較差,且學生之間差異較大。表現最好的是生物學院的畢業(yè)生,平均分也僅為5.29分,該學院畢業(yè)生中評估分最高達到了9分,最低是3分,相差6分;而醫(yī)學院畢業(yè)生的評估分最低,平均分僅為3.86分,比樣本平均分低1.22分,在工作表現及專業(yè)水平兩個方面,社會對振興大學的醫(yī)學院畢業(yè)生評估分最高,這說明該學院的工作實踐能力較強,專業(yè)基礎知識扎實,但學生的外語水平最差,反映出該學院在外語教學或招生工作中存在很大的問題,因此,作為校管理層應深入調查,查明原因,盡快對該學院外語教學工作進行改革,或在招生中把好關,擇優(yōu)錄取新生,以便提高該學院學生綜合素質。 其次商貿學院畢業(yè)生的專業(yè)水平評分最低,說明該學院專業(yè)知識的教學工作存在問題,需要盡快更新教材,加強對教師的培訓,注重學生經濟理論知識的學習和擴大學生的知識面。 同時值得注意的是,三個學院的外語水平普遍較低,這一點應當引起校方的足夠重視,采取有效措施,改變現狀。,綜上所述:,四、單變量推論統計,抽樣調查的目的和作用決定了,對樣本的統計和描述不是最終目的,而是希望通過樣本來了解總體特征和狀況。 單變量推論統計就是用來解決由樣本推論總體的問題,即以樣本的統計值來估計總體的參數值。 主要兩種類型:點值估計和區(qū)間估計,1、點值估計(point estimation),點值估計,就是以一個適當的樣本統計值來代表總體的參數值。 例如,大連市首次公眾科學素養(yǎng)調查得到樣本科學素養(yǎng)水平為2.5%,則認為大連市總體公眾科學素養(yǎng)水平為2.5%。 一般說來,樣本規(guī)模愈大,且抽樣方法愈嚴謹,這種估計方法愈可信。,不同的統計值在估計其總體值時所犯的偏差也不同。例如均值和比例的準確程度高于標準差。,2、區(qū)間估計(interval estimation),區(qū)間估計,就是在一定的可信度(置信度)下,用樣本統計值的某個范圍(置信區(qū)間)來估計總體的參數值。(“框”?。?范圍的大小反映的是這種估計的精確性問題,而可信度高低反映的則是這種估計的可靠性或把握性問題。,一般表述: ——我們有95%的把握認為,全市職工的月均工資收入在920元至1050元之間; ——全省人口中,男性占50%至52%的可能性為99%。,常用的置信度分別為90%、95%和99%,與它們所對應的允許誤差(α)則分別為10%、5%和1%。在計算中,置信度常用1- α來表示: 1-0.1~90%——標準值Z=1.65 1-0.05~95%——標準值Z=1.96 1-0.01~99%——標準值Z=2.58,(1)總體均值的區(qū)間估計,總體均值的區(qū)間估計公式為:,,,,,為樣本平均數,,為樣本標準差,為置信度1-α所對應的標準值Z,為樣本規(guī)模,例:從某高校2萬名學生中按照簡單隨機抽樣方法抽取900(3600)人進行月均消費水平情況調查,得到月均消費額是450元,標準差是30元,求在95%(99%)的置信度下,全校學生月均消費水平的置信區(qū)間。,將已知數據代入公式可求得置信區(qū)間:,,,,,對這個結果的解釋是,抽樣調查的誤差范圍是1.96,根據這個樣本估計全校學生月均消費水平在448.04元至451.96元之間,這樣估計的可靠性程度(成功的可能性)為95%,錯誤的可能性有5%,或者說有95%的把握說,全校學生月均消費水平在448.04元至451.96元之間。,如果置信度不是95%,而是99%,則Z=2.58,相應地,全校學生月均消費水平的置信區(qū)間就變?yōu)椋?如我們把樣本規(guī)模增加到3600,則95%置信度下的置信區(qū)間就會由原來的448.04~451.96元縮小為449.02~450.98元。這也告訴我們,在置信度一定的條件下,可以通過增加樣本的規(guī)模來減少抽樣誤差,增加估計的精確度。,,(2)總體百分數的區(qū)間估計,總體百分數的區(qū)間估計公式為:,,,,為置信度1-α所對應的標準值Z,為樣本規(guī)模,為樣本中的百分數,例:從某高校中2萬名學生中按照簡單隨機抽樣方法抽取900(3600)人調查,樣本中有60%的學生是來自農村,求在95%(99%)的置信度下,全校學生來自農村比例的置信區(qū)間。,對結果的解釋是:根據這個樣本估計全校學生家庭所在地是農村的比率在56.8%至63.2%之間,這樣估計的可靠性為95%,錯誤的可能性為5%;或者有95%的把握說,該高校學生有56.8%至63.2%的來自農村。 如果置信度提高為99%,則估計區(qū)間變?yōu)?5.8%至64.2%之間; 如果調查對象增加為3600,則估計區(qū)間變?yōu)?8.4%至61.6%之間。,
收藏