《數(shù)學(xué)分布泊松分布、二項分布、正態(tài)分布、均勻分布、指數(shù)分布生存分析貝葉斯概率公式全概率公式.doc》由會員分享,可在線閱讀,更多相關(guān)《數(shù)學(xué)分布泊松分布、二項分布、正態(tài)分布、均勻分布、指數(shù)分布生存分析貝葉斯概率公式全概率公式.doc(14頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、數(shù)學(xué)期望:隨機變量最基本的數(shù)學(xué)特征之一。它反映隨機變量平均取值的大小。又稱期望或均值。它是簡單算術(shù)平均的一種推廣。例如某城市有10萬個家庭,沒有孩子的家庭有1000個,有一個孩子的家庭有9萬個,有兩個孩子的家庭有6000個,有3個孩子的家庭有3000個, 則此城市中任一個家庭中孩子的數(shù)目是一個隨機變量,記為X,它可取值0,1,2,3,其中取0的概率為0.01,取1的概率為0.9,取2的概率為0.06,取3的概率為0.03,它的數(shù)學(xué)期望為00.01+10.9+20.06+30.03等于1.11,即此城市一個家庭平均有小孩1.11個,用數(shù)學(xué)式子表示為:E(X)=1.11。
也就是說,我們用數(shù)學(xué)的
2、方法分析了這個概率性的問題,對于每一個家庭,最有可能它家的孩子為1.11個。
可以簡單的理解為求一個概率性事件的平均狀況。
各種數(shù)學(xué)分布的方差是:
1、 一個完全符合分布的樣本
2、 這個樣本的方差
概率密度的概念是:某種事物發(fā)生的概率占總概率(1)的比例,越大就說明密度越大。比如某地某次考試的成績近似服從均值為80的正態(tài)分布,即平均分是80分,由正態(tài)分布的圖形知x=80時的函數(shù)值最大,即隨機變量在80附近取值最密集,也即考試成績在80分左右的人最多。
下圖為概率密度函數(shù)圖(F(x)應(yīng)為f(x),表示概率密度):
離散型分布:二項分布、泊松分布
3、連續(xù)型分布:指數(shù)分布、正態(tài)分布、X2分布、t分布、F分布
抽樣分布
抽樣分布只與自由度,即樣本含量(抽樣樣本含量)有關(guān)
二項分布(binomial distribution):例子拋硬幣
1、 重復(fù)試驗(n個相同試驗,每次試驗兩種結(jié)果,每種結(jié)果概率恒定————伯努利試驗)
2、
3、 P(X=0), P(X=1), P(X=3), ……….所有可能的概率共同組成了一個分布,即二項分布
泊松分布(possion distribution):
1、 一個單位內(nèi)(時間、面積、空間)某稀有事件
2、 此事件發(fā)生K次的概率
3、
4、P(X=0), P(X=1), P(X=3), ……….所有可能的概率共同組成了一個分布,即泊松分布
二項分布與泊松分布的關(guān)系:
二項分布在事件發(fā)生概率很小,重復(fù)次數(shù)n很大的情況下,其分布近似泊松分布
均勻分布(uniform distribution):
分為連續(xù)型均勻分布和離散型均勻分布
離散型均勻分布:
1、 n種可能的結(jié)果
2、 每個可能的概率相等(1/n)
連續(xù)型均勻分布:
1、 可能的結(jié)果是連續(xù)的
2、 每個可能的概率相等()
連續(xù)型均勻分布概率密度函數(shù)如下圖:
指數(shù)分布(expon
5、ential distribution):
用來表示獨立隨機事件發(fā)生的時間間隔,比如旅客進機場的時間間隔、中文維基百科新條目出現(xiàn)的時間間隔等等。
指數(shù)分布常用于各種“壽命”分布的近似。
1、連續(xù)型分布,每個點的概率:
2、無記憶性。已經(jīng)使用了s小時的元件,它能再使用t小時的概率,與一個從未使用過的元件使用t小時的概率相同。即它對已經(jīng)使用過的s小時沒有記憶。
指數(shù)分布的概率密度函數(shù)如下圖:
正態(tài)分布(normal distribution):
又稱高斯分布。
1、 描述一個群體的某個指標。
2、 這個指標是連續(xù)的。
3、 每個特定指標在整個群體中都有一
6、個概率()。
4、 所有指標概率共同組成了一個分布,這個分布就是正態(tài)分布。
正態(tài)分布的概率密度函數(shù)如下圖:
中心極限定理:
不論總體的分布形式如何(正態(tài)或非正態(tài)),只要樣本(抽樣樣本)含量n足夠大時,樣本均數(shù)的分布就近似正態(tài)分布,且均數(shù)與總體均數(shù)相等,標準差為(總體標準差)/(n的開方)。
中心極限定理使得t分布、F分布和X2分布在抽樣樣本含量很大時不需要對總體樣本是否正態(tài)有要求。
t分布(student t distribution):
1、t分布是以0為中心的一簇曲線,每個自由度決定一個曲線
2、自由度是一個抽樣小樣本中的具體觀測值的個數(shù)(抽樣樣本
7、含量)-1
3、總體樣本呈正態(tài)分布(抽樣樣本含量較小時,要求總體樣本呈正態(tài)分布,如果抽樣樣本含量很大(eg. n >= 100),由中心極限定理可知抽樣樣本均數(shù)也近似正態(tài)分布,因而“差值”的概率也呈正態(tài)分布,而t分布的每一條曲線實際上都是正態(tài)分布曲線)
4、從一個總體樣本中抽取很多個小樣本———抽樣
5、每個小樣本都有一個均值
6、每個小樣本的均值與總體樣本均值有一個差值,這個差值用t估計
7、可能有多個小樣本的差值估計都是t,t出現(xiàn)的次數(shù)占所有小樣本的比例可以用一個概率衡量
8、所有t值的概率組成一個分布,就是t分布的一個曲線
9、另外做一個抽樣,每個小樣本包含的觀
8、測值不同,則形成t分布的另外一個曲線
10、自由度越大,則曲線越接近于標準正態(tài)分布
11、t分布只與自由度相關(guān)
t分布的概率密度函數(shù)如下圖(v為自由度):
X2分布(chi square distribution):
1、X2分布也是一簇曲線,每個自由度決定一個曲線
2、自由度是一個抽樣小樣本中的具體觀測值的個數(shù)(抽樣樣本含量)-1
2、總體樣本呈正態(tài)分布(抽樣樣本含量(n)較小時,要求總體樣本呈正態(tài)分布)
3、從總體樣本中抽取n個觀測值:z1,z2,z3……———抽樣
4、將它們平方后求和,這個和用一個新變量表示,即X2
5、重復(fù)抽樣并獲得多個X2
9、:X12,X22,X32,X42………
6、可能有多次抽樣的X2值相同,同一個X2值的抽樣次數(shù)占總次數(shù)的比例可以用一個概率表示
7、所有的概率值共同組成一個分布,就是X2分布的一條曲線
8、另外做一次,只要從總體中選取觀測值數(shù)目n不同,得到的就是另外一條曲線
10、自由度越大,則曲線越接近于標準正態(tài)分布
11、X2分布只與自由度相關(guān)
X2分布的概率密度函數(shù)如下圖(n在這里為自由度):
F分布(F-distribution):
1、F分布也是一簇曲線,每對自由度決定一個曲線
2、自由度是一個抽樣小樣本中的具體觀測值的個數(shù)(抽樣樣本含量)-1
2、兩總體
10、樣本方差比的分布
3、總體樣本呈正態(tài)分布(抽樣樣本含量(n)較小時,要求總體樣本呈正態(tài)分布)
4、從總體樣本中抽取兩個樣本, 兩個樣中的觀測值數(shù)目可相同也可不同,分別記為n1和n2
5、分別計算出X2:X1,X2
6、構(gòu)建一個新變量F:
7、重復(fù)抽取樣本,計算多個F值:F1,F(xiàn)2,F(xiàn)3……..
8、可能有多次抽樣的F值相同,同一個F值的抽樣次數(shù)占總次數(shù)的比例可以用一個概率表示
9、所有的概率值共同組成一個分布,就是F分布的一條曲線
10、另外做一次,只要從總體中選取觀測值數(shù)目n不同,得到的就是另外一條曲線
10、兩個自由度越大,則曲線越接近于標準正態(tài)分布
11、
11、F分布只與自由度相關(guān)
F分布的概率密度函數(shù)如下圖(m,n在這里為自由度):
【在推估總體平均值時,基于樣本平均數(shù)的抽樣分布】—— t分布
【在用樣本方差來推估總體方差時,必須知道樣本方差的抽樣分布】— X2分布
【比較兩個總體的方差是否相等時,必須知道樣本方差的聯(lián)合抽樣分布】— F分布
生存分析(survival analysis):
1、 多種影響慢性疾病的因素(不同手術(shù)方法、不同藥物………)
2、 隨訪一群患者
3、 一段時間后統(tǒng)計生存和死亡
3、最終給出的結(jié)果是一個評價各種因素對生存時間的影響(生存時間、生存率有無差異)
貝葉斯公式(bayes formula):
1、 描述兩個條件概率之間的關(guān)系———P(Bi|A)與P(A|Bi),A為事件,Bi 為一個劃分
2、 P(Bi|A)=P(A|Bi)*P(Bi)/P(A) 或者
3、 看圖理解
全概率公式(full probability formula):
1、 描述一個特定事件的概率與條件概率間的關(guān)系
2、 P(A)=P(A|B1)*P(B1) + P(A|B2)*P(B2) + ... + P(A|Bn)*P(Bn)
3、 看圖理解