《《數(shù)據(jù)的收集》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)的收集》PPT課件.ppt(23頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、第2章 數(shù)據(jù)分析導(dǎo)論,第2章(1) 數(shù)據(jù)的收集與描述,2.1 統(tǒng)計(jì)工作的步驟 2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念 2.3 抽樣方法 2.4 數(shù)據(jù)資料的類型,2.1 統(tǒng)計(jì)工作的步驟,設(shè)計(jì)(design):制定計(jì)劃,對(duì)整個(gè)過程進(jìn)行安排。是整個(gè)工作的關(guān)鍵。如何進(jìn)行設(shè)計(jì)? 收集資料(collection of data):根據(jù)計(jì)劃取得可靠、完整的資料。 整理資料(sorting data):原始資料的整理、清理、核實(shí)、查對(duì),使其條理化、系統(tǒng)化便于計(jì)算和分析。 分析資料(analysis of data):統(tǒng)計(jì)學(xué)的關(guān)鍵所在。運(yùn)用統(tǒng)計(jì)學(xué)的基本原理和方法,分析計(jì)算有關(guān)的指標(biāo)和數(shù)據(jù),揭示事物內(nèi)部的規(guī)律,總體、個(gè)體
2、與樣本,總體(population):是根據(jù)研究目的性質(zhì)相同的所有考察對(duì)象的全體. 個(gè)體(individual):是總體中的基本考察單位,可以是一個(gè)人、一個(gè)動(dòng)物、一個(gè)家庭、一個(gè)地區(qū)、一份樣品等。 樣本(sample):是從總體中隨機(jī)抽取的部分觀察單位的集合。 樣本的容量(simple size):樣本中個(gè)體的數(shù)目,樣本含量用 n 表示。 大樣本: 小樣本:,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,總體與樣本的關(guān)系,,總體,樣本,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,,,例1:為了解某地區(qū)初中二年級(jí)學(xué)生的身高情況,有關(guān)部門從初二年級(jí)中抽200名學(xué)生測(cè)量他們的身高,然后根據(jù)這一部分學(xué)生的身高去估計(jì)這一地區(qū)所有初
3、二年級(jí)學(xué)生的平均身高. 說出總體,個(gè)體,樣本和樣本容量.,答: 總體是這個(gè)地區(qū)初二年級(jí)學(xué)生每人身高的全體; 每名學(xué)生的身高是個(gè)體; 從中抽取的200名學(xué)生的每人身高的集體是總體的一個(gè)樣本; 樣本容量是200.,樣本與總體,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,例2. 為了考察某校初三年級(jí)360名學(xué)生的數(shù)學(xué)成績(jī),從中抽取了一個(gè)班46名學(xué)生的數(shù)學(xué)成績(jī)進(jìn)行分析,下列說法中正確的是( ) A.總體是360名學(xué)生 B.樣本是一個(gè)班 C.樣本容量是46 D.個(gè)體是每一名學(xué)生,樣本與總體,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,例3. 為了考察試驗(yàn)地里棉花的高度,從中抽測(cè)了10株棉花植株的高度.在這個(gè)問題中,有以下四種說
4、法: 抽測(cè)的10株棉花,每株棉花植株的高度的集體是總體的一個(gè)樣本; 抽測(cè)的10株棉花植株的高度是樣本容量; 這塊試驗(yàn)地里每株棉花植株的高度的全體是總體; 每株棉花植株的高度是個(gè)體. 其中正確的說法有( ) A.1種 B.2種 C.3種 D.4種,樣本與總體,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,參數(shù)與統(tǒng)計(jì)量(statistic and parameter),統(tǒng)計(jì)量(statistic):描述樣本的統(tǒng)計(jì)或分析指標(biāo),常用拉丁字母表示, 如 、p 、u值、t值等。 參數(shù)(parameter):描述總體的統(tǒng)計(jì)指標(biāo),常用希臘字母表示,如、 、等。 例要了解某地12歲健康男孩的平均身高(參數(shù)),今測(cè)得10
5、0名男孩身高值,求得平均數(shù)(統(tǒng)計(jì)量)。,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,變量和變量值,變量的數(shù)值表現(xiàn)就是變量值,也就是可變的數(shù)量標(biāo)志和統(tǒng)計(jì)指標(biāo)的不同取值。 例如,工資是一個(gè)變量,取有80元、100元、110元、130元等四個(gè)數(shù)值,要求計(jì)算其平均工資,不能說求這四個(gè)“變量”的平均數(shù),因?yàn)檫@里只有“工資”這一個(gè)變量,并沒有四個(gè)變量,所要平均的是“工資”這個(gè)變量的四個(gè)數(shù)值,即四個(gè)變量值。,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,變量、同質(zhì)與變異,變量(variable): 收集資料中確定了的觀察單位(Observation unit)稱為個(gè)體,在統(tǒng)計(jì)工作中反映個(gè)體的特征稱為變量。 觀察指標(biāo)的測(cè)定結(jié)果稱變量值
6、(Value of variance)。 如要調(diào)查某地中學(xué)生的健康狀況,每一個(gè)要調(diào)查的學(xué)生稱為個(gè)體,反映中學(xué)生的健康指標(biāo)身高、體重、胸圍、肺活量、體溫、脈搏數(shù)、血壓等都稱作為變量。又如病人的年齡、性別、紅細(xì)胞數(shù)、血紅蛋白含量、患病時(shí)間等。,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,同質(zhì)與變異(homogeneity and variation),統(tǒng)計(jì)的研究對(duì)象是由個(gè)體構(gòu)成的群體,必須給個(gè)體規(guī)定一些相同的因素情況,稱同質(zhì)(homogeneity)。 變異(variation):同質(zhì)個(gè)體間測(cè)定結(jié)果的差異。,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,變異,例研究?jī)和纳砀?,?guī)定某地區(qū)、某民族、某性別、一定年齡的正常兒童
7、,稱同質(zhì),而同地區(qū)、同民族、同性別、同年齡的正常兒童的身高也有高有矮,稱變異。 統(tǒng)計(jì)分析的任務(wù)就是在同質(zhì)分組的基礎(chǔ)上,通過對(duì)變異所呈現(xiàn)出的統(tǒng)計(jì)規(guī)律性的研究,透過偶然現(xiàn)象,揭示同質(zhì)事物的本質(zhì)特征和規(guī)律。,2.2 統(tǒng)計(jì)學(xué)中的幾個(gè)基本概念,2.3 抽樣的方法論sampling,2.3 抽樣的方法(sampling),簡(jiǎn)單隨機(jī)抽樣 (simple random sampling) 系統(tǒng)抽樣 (systematic sampling) 分層隨機(jī)抽樣 (stratified random sampling) 整群抽樣 (cluster sampling),簡(jiǎn)單隨機(jī)抽樣Simple random sampl
8、ing,簡(jiǎn)單隨機(jī)抽樣:在總體中以完全隨機(jī)的方法抽取一部分個(gè)體組成樣本的抽樣方法。 由隨機(jī)抽樣取得的樣本叫隨機(jī)樣本。 如某地共有1500名15歲兒童,欲從中隨機(jī)抽取100名兒童作樣本,調(diào)查其發(fā)育狀況。具體方法:先將全部?jī)和鹨恍彰⒕幪?hào),用隨機(jī)函數(shù)產(chǎn)生100個(gè)隨機(jī)數(shù)字,再以隨機(jī)數(shù)字對(duì)應(yīng)編號(hào)的男孩組成樣本。,2.3 抽樣的方法(sampling),系統(tǒng)抽樣 Systematic sampling,系統(tǒng)抽樣:又稱等距離抽樣或機(jī)械抽樣,是指隨機(jī)地在所要抽樣的名單中每間隔若干個(gè)個(gè)體抽取一個(gè)個(gè)體的抽樣方法。 如:從5000個(gè)元素的總體中抽取50個(gè)元素作為一個(gè)樣本,可在總體的每100個(gè)元素中抽取一個(gè)元素,2
9、.3 抽樣的方法(sampling),分層隨機(jī)抽樣Stratified Random Sampling,2.3 抽樣的方法(sampling),按照與研究目的明顯有關(guān)的因素,將總體分為若干類型或區(qū)域,統(tǒng)計(jì)上叫“層”,然后從每一層內(nèi)按比例抽取一定數(shù)量的觀察單位,將各層觀察單位合起來(lái)組成樣本。,整群抽樣Cluster Sampling,2.3 抽樣的方法(sampling),將總體按照某種與研究目的無(wú)關(guān)的頒布特征(如地區(qū)范圍、團(tuán)體等)劃分為若干個(gè)“群”組,每個(gè)群包括若干單位;然后隨機(jī)抽取部分群,組成樣本。,2.4 變量或數(shù)據(jù)的類型,定量變量(Quantitative variables) 離散變量
10、 連續(xù)變量 屬性變量(Categorical variables ) 序列變量(Ranked variables),2.4 統(tǒng)計(jì)資料的類型,離散變量(discrete variables):離散變量中每個(gè)數(shù)據(jù)都是整數(shù),因此數(shù)據(jù)間的差異也必然是整數(shù),因此也稱為計(jì)數(shù)資料 。例如,每調(diào)查單位有蟲數(shù)0頭、1 頭、2頭, 等。但經(jīng)過加工的指標(biāo),例如平均數(shù),可以是非整數(shù)。 連續(xù)變量(continuous variables):當(dāng)數(shù)據(jù)由大到小順序排列時(shí),每?jī)蓚€(gè)數(shù)據(jù)之間總有可能取多一個(gè)中間數(shù)值的變量,因此也稱為測(cè)量資料。如長(zhǎng)度、重量、面積等,其原始數(shù)據(jù)是以截取一定小數(shù)位數(shù)的近似值來(lái)表示。,定量變量 Quant
11、itative variables,屬性變量Categorical variables,二項(xiàng)變量:調(diào)查的數(shù)只有兩種,非此則彼,如雌或雄、存活或死亡、寄生或非寄生、發(fā)芽或不發(fā)芽等等。通常是以其中一方調(diào)查單位數(shù)占全部調(diào)查單位數(shù)的百分率表示,如死亡率、寄生率、發(fā)芽率等。也可以運(yùn)用0-1化處理。 等級(jí)變量:按一定的分級(jí)標(biāo)準(zhǔn),把調(diào)查對(duì)象的表現(xiàn)分為若干等級(jí),每個(gè)等級(jí)定出級(jí)值,如1、2、3、4、5,或1、3、5、7、9等。調(diào)查時(shí)將每個(gè)觀測(cè)對(duì)象評(píng)定一個(gè)級(jí)值加以記錄,然后將等級(jí)資料進(jìn)行統(tǒng)計(jì)分析。如病情指數(shù)、蟲情指數(shù)等的調(diào)查時(shí)就需要分級(jí)。,2.4 統(tǒng)計(jì)資料的類型,序列變量ranked variables,將已有的計(jì)數(shù)資料、測(cè)量資料或等級(jí)資料重新按數(shù)值由小到大順序排列,然后依次給予每值一個(gè)秩序值,如1、2、3、 。秩序值變量可以運(yùn)用特定的方式進(jìn)行統(tǒng)計(jì)分析(屬非參量性方法)。,2.4 統(tǒng)計(jì)資料的類型,,