《《數(shù)據(jù)的收集》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《數(shù)據(jù)的收集》PPT課件.ppt(23頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第2章 數(shù)據(jù)分析導論,第2章(1) 數(shù)據(jù)的收集與描述,2.1 統(tǒng)計工作的步驟 2.2 統(tǒng)計學中的幾個基本概念 2.3 抽樣方法 2.4 數(shù)據(jù)資料的類型,2.1 統(tǒng)計工作的步驟,設計(design):制定計劃,對整個過程進行安排。是整個工作的關鍵。如何進行設計? 收集資料(collection of data):根據(jù)計劃取得可靠、完整的資料。 整理資料(sorting data):原始資料的整理、清理、核實、查對,使其條理化、系統(tǒng)化便于計算和分析。 分析資料(analysis of data):統(tǒng)計學的關鍵所在。運用統(tǒng)計學的基本原理和方法,分析計算有關的指標和數(shù)據(jù),揭示事物內部的規(guī)律,總體、個體
2、與樣本,總體(population):是根據(jù)研究目的性質相同的所有考察對象的全體. 個體(individual):是總體中的基本考察單位,可以是一個人、一個動物、一個家庭、一個地區(qū)、一份樣品等。 樣本(sample):是從總體中隨機抽取的部分觀察單位的集合。 樣本的容量(simple size):樣本中個體的數(shù)目,樣本含量用 n 表示。 大樣本: 小樣本:,2.2 統(tǒng)計學中的幾個基本概念,總體與樣本的關系,,總體,樣本,2.2 統(tǒng)計學中的幾個基本概念,,,例1:為了解某地區(qū)初中二年級學生的身高情況,有關部門從初二年級中抽200名學生測量他們的身高,然后根據(jù)這一部分學生的身高去估計這一地區(qū)所有初
3、二年級學生的平均身高. 說出總體,個體,樣本和樣本容量.,答: 總體是這個地區(qū)初二年級學生每人身高的全體; 每名學生的身高是個體; 從中抽取的200名學生的每人身高的集體是總體的一個樣本; 樣本容量是200.,樣本與總體,2.2 統(tǒng)計學中的幾個基本概念,例2. 為了考察某校初三年級360名學生的數(shù)學成績,從中抽取了一個班46名學生的數(shù)學成績進行分析,下列說法中正確的是( ) A.總體是360名學生 B.樣本是一個班 C.樣本容量是46 D.個體是每一名學生,樣本與總體,2.2 統(tǒng)計學中的幾個基本概念,例3. 為了考察試驗地里棉花的高度,從中抽測了10株棉花植株的高度.在這個問題中,有以下四種說
4、法: 抽測的10株棉花,每株棉花植株的高度的集體是總體的一個樣本; 抽測的10株棉花植株的高度是樣本容量; 這塊試驗地里每株棉花植株的高度的全體是總體; 每株棉花植株的高度是個體. 其中正確的說法有( ) A.1種 B.2種 C.3種 D.4種,樣本與總體,2.2 統(tǒng)計學中的幾個基本概念,參數(shù)與統(tǒng)計量(statistic and parameter),統(tǒng)計量(statistic):描述樣本的統(tǒng)計或分析指標,常用拉丁字母表示, 如 、p 、u值、t值等。 參數(shù)(parameter):描述總體的統(tǒng)計指標,常用希臘字母表示,如、 、等。 例要了解某地12歲健康男孩的平均身高(參數(shù)),今測得10
5、0名男孩身高值,求得平均數(shù)(統(tǒng)計量)。,2.2 統(tǒng)計學中的幾個基本概念,變量和變量值,變量的數(shù)值表現(xiàn)就是變量值,也就是可變的數(shù)量標志和統(tǒng)計指標的不同取值。 例如,工資是一個變量,取有80元、100元、110元、130元等四個數(shù)值,要求計算其平均工資,不能說求這四個“變量”的平均數(shù),因為這里只有“工資”這一個變量,并沒有四個變量,所要平均的是“工資”這個變量的四個數(shù)值,即四個變量值。,2.2 統(tǒng)計學中的幾個基本概念,變量、同質與變異,變量(variable): 收集資料中確定了的觀察單位(Observation unit)稱為個體,在統(tǒng)計工作中反映個體的特征稱為變量。 觀察指標的測定結果稱變量值
6、(Value of variance)。 如要調查某地中學生的健康狀況,每一個要調查的學生稱為個體,反映中學生的健康指標身高、體重、胸圍、肺活量、體溫、脈搏數(shù)、血壓等都稱作為變量。又如病人的年齡、性別、紅細胞數(shù)、血紅蛋白含量、患病時間等。,2.2 統(tǒng)計學中的幾個基本概念,同質與變異(homogeneity and variation),統(tǒng)計的研究對象是由個體構成的群體,必須給個體規(guī)定一些相同的因素情況,稱同質(homogeneity)。 變異(variation):同質個體間測定結果的差異。,2.2 統(tǒng)計學中的幾個基本概念,變異,例研究兒童的身高,規(guī)定某地區(qū)、某民族、某性別、一定年齡的正常兒童
7、,稱同質,而同地區(qū)、同民族、同性別、同年齡的正常兒童的身高也有高有矮,稱變異。 統(tǒng)計分析的任務就是在同質分組的基礎上,通過對變異所呈現(xiàn)出的統(tǒng)計規(guī)律性的研究,透過偶然現(xiàn)象,揭示同質事物的本質特征和規(guī)律。,2.2 統(tǒng)計學中的幾個基本概念,2.3 抽樣的方法論sampling,2.3 抽樣的方法(sampling),簡單隨機抽樣 (simple random sampling) 系統(tǒng)抽樣 (systematic sampling) 分層隨機抽樣 (stratified random sampling) 整群抽樣 (cluster sampling),簡單隨機抽樣Simple random sampl
8、ing,簡單隨機抽樣:在總體中以完全隨機的方法抽取一部分個體組成樣本的抽樣方法。 由隨機抽樣取得的樣本叫隨機樣本。 如某地共有1500名15歲兒童,欲從中隨機抽取100名兒童作樣本,調查其發(fā)育狀況。具體方法:先將全部兒童逐一姓名并編號,用隨機函數(shù)產生100個隨機數(shù)字,再以隨機數(shù)字對應編號的男孩組成樣本。,2.3 抽樣的方法(sampling),系統(tǒng)抽樣 Systematic sampling,系統(tǒng)抽樣:又稱等距離抽樣或機械抽樣,是指隨機地在所要抽樣的名單中每間隔若干個個體抽取一個個體的抽樣方法。 如:從5000個元素的總體中抽取50個元素作為一個樣本,可在總體的每100個元素中抽取一個元素,2
9、.3 抽樣的方法(sampling),分層隨機抽樣Stratified Random Sampling,2.3 抽樣的方法(sampling),按照與研究目的明顯有關的因素,將總體分為若干類型或區(qū)域,統(tǒng)計上叫“層”,然后從每一層內按比例抽取一定數(shù)量的觀察單位,將各層觀察單位合起來組成樣本。,整群抽樣Cluster Sampling,2.3 抽樣的方法(sampling),將總體按照某種與研究目的無關的頒布特征(如地區(qū)范圍、團體等)劃分為若干個“群”組,每個群包括若干單位;然后隨機抽取部分群,組成樣本。,2.4 變量或數(shù)據(jù)的類型,定量變量(Quantitative variables) 離散變量
10、 連續(xù)變量 屬性變量(Categorical variables ) 序列變量(Ranked variables),2.4 統(tǒng)計資料的類型,離散變量(discrete variables):離散變量中每個數(shù)據(jù)都是整數(shù),因此數(shù)據(jù)間的差異也必然是整數(shù),因此也稱為計數(shù)資料 。例如,每調查單位有蟲數(shù)0頭、1 頭、2頭, 等。但經過加工的指標,例如平均數(shù),可以是非整數(shù)。 連續(xù)變量(continuous variables):當數(shù)據(jù)由大到小順序排列時,每兩個數(shù)據(jù)之間總有可能取多一個中間數(shù)值的變量,因此也稱為測量資料。如長度、重量、面積等,其原始數(shù)據(jù)是以截取一定小數(shù)位數(shù)的近似值來表示。,定量變量 Quant
11、itative variables,屬性變量Categorical variables,二項變量:調查的數(shù)只有兩種,非此則彼,如雌或雄、存活或死亡、寄生或非寄生、發(fā)芽或不發(fā)芽等等。通常是以其中一方調查單位數(shù)占全部調查單位數(shù)的百分率表示,如死亡率、寄生率、發(fā)芽率等。也可以運用0-1化處理。 等級變量:按一定的分級標準,把調查對象的表現(xiàn)分為若干等級,每個等級定出級值,如1、2、3、4、5,或1、3、5、7、9等。調查時將每個觀測對象評定一個級值加以記錄,然后將等級資料進行統(tǒng)計分析。如病情指數(shù)、蟲情指數(shù)等的調查時就需要分級。,2.4 統(tǒng)計資料的類型,序列變量ranked variables,將已有的計數(shù)資料、測量資料或等級資料重新按數(shù)值由小到大順序排列,然后依次給予每值一個秩序值,如1、2、3、 。秩序值變量可以運用特定的方式進行統(tǒng)計分析(屬非參量性方法)。,2.4 統(tǒng)計資料的類型,,