《中國(guó)科學(xué)院大學(xué)2012年《機(jī)器學(xué)習(xí)》試卷及其答案》由會(huì)員分享,可在線閱讀,更多相關(guān)《中國(guó)科學(xué)院大學(xué)2012年《機(jī)器學(xué)習(xí)》試卷及其答案(5頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、中國(guó)科學(xué)院大學(xué) 20139310班
中國(guó)科學(xué)院大學(xué)2012年《機(jī)器學(xué)習(xí)》試卷及其答案
任課教師:卿來(lái)云
一、基礎(chǔ)題(共36分)
1、 請(qǐng)描述極大似然估計(jì) MLE和最大后驗(yàn)估計(jì) MAP之間的區(qū)別。請(qǐng)解釋為什么 MLE比MAP 更容易過(guò)擬合。(10分)
MLE :取似然函數(shù)最大時(shí)的參數(shù)值為該參數(shù)的估計(jì)值, ymie=argmax[p(x|y)] ; MAP :取后驗(yàn)
函數(shù)(似然與先驗(yàn)之積)最大時(shí)的參數(shù)值為該參數(shù)的估計(jì)值, ymap=argmax[p(x|y)p(y)]。因?yàn)?
MLE只考慮訓(xùn)練數(shù)據(jù)擬合程度沒(méi)有考慮先驗(yàn)知識(shí),把錯(cuò)誤點(diǎn)也加入模型中,導(dǎo)致過(guò)擬合。
2、 在年度百花獎(jiǎng)評(píng)獎(jiǎng)
2、揭曉之前, 一位教授問(wèn)80個(gè)電影系的學(xué)生,誰(shuí)將分別獲得8個(gè)獎(jiǎng)項(xiàng)(如 最佳導(dǎo)演、最佳男女主角等)。評(píng)獎(jiǎng)結(jié)果揭曉后,該教授計(jì)算每個(gè)學(xué)生的猜中率,同時(shí)也計(jì)
算了所有80個(gè)學(xué)生投票的結(jié)果。他發(fā)現(xiàn)所有人投票結(jié)果幾乎比任何一個(gè)學(xué)生的結(jié)果正確率 都高。這種提高是偶然的嗎?請(qǐng)解釋原因。( 10分)
設(shè)x為第i個(gè)學(xué)生的猜中率(要么 0要么1) x~Ber( 0 ),E(x)= 0 ,V(x)= 0 (1- 0 )
mean(x)~N( 0 , 0 (1- 0 )/N),E(mean(x))= 0 ,V(mean(x))= 0 (1- 0 )/N
3、隨機(jī)變量,y為待預(yù)測(cè)的二值變量。
A
c
y
0
1
0
4
]
4
1
a
0
9
9
g
I
1
1
1
t
J
1
0
0
1
i
a
6
1
⑻ 對(duì)一個(gè)新的輸入 A=0, B=0, C=1 ,樸素貝葉斯分類器將會(huì)怎樣預(yù)測(cè) y?( 10分)
y~Ber( 0 ) p(y=0)=3/7,p(y=1)=4/7
p(y=0|A=0B=0C=1) x p(y=0)*p(A=0|y=0)*p(B=0|y=0)*p(C=1|y=0)=3/7*2/3*1/3*1/3=2/63 p(y=1|A=0B=0C=1) x p(y=
4、1)*p(A=0|y=1)*p(B=0|y=1)*p(C=1|y=1)=4/7*1/4*2/4*2/4=1/28 ,因此
屬于y=1類
(b)假設(shè)你知道在給定類別的情況下 A、B、C是獨(dú)立的隨機(jī)變量,那么其他分類器(如Logstic
回歸、SVM分類器等)會(huì)比樸素貝葉斯分類器表現(xiàn)更好嗎?為什么?(注意:與上面給的 數(shù)據(jù)集沒(méi)有關(guān)系。)(6分)
不會(huì)。因?yàn)橐阎?dú)立同分布的前提下 NBC只用3個(gè)參數(shù),不用NBC貝U需要23-1=7個(gè)參數(shù)。
若不獨(dú)立,則其他基于數(shù)據(jù)本身的判別式分類器效果較好。
二、回歸問(wèn)題。(共 24分)
現(xiàn)有N個(gè)訓(xùn)練樣本的數(shù)據(jù)集 D={(xi,yi)},其中xi,yi
5、為實(shí)數(shù)。
1. 我們首先用線性回歸擬合數(shù)據(jù)。 為了測(cè)試我們的線性回歸模型, 我們隨機(jī)選擇一些樣本 作為訓(xùn)練樣本,剩余樣本作為測(cè)試樣本。現(xiàn)在我們慢慢增加訓(xùn)練樣本的數(shù)目, 那么隨著訓(xùn)練 樣本數(shù)目的增加,平均訓(xùn)練誤差和平均測(cè)試誤差將會(huì)如何變化?為什么?( 6分)
平均訓(xùn)練誤差:A、增加 B、減小
平均測(cè)試誤差:A、增加 B、減小
因?yàn)楫?dāng)訓(xùn)練樣本增多時(shí),模型參數(shù)發(fā)生改變以擬合新增的樣本, 因而使得模型原先的擬合程
度下降,平均訓(xùn)練誤差增加;而訓(xùn)練樣本增多,模型越接近真實(shí)的分布,因而使得平均測(cè)試 誤差減小。
2. 給定如下圖(a)所示數(shù)據(jù)。粗略看來(lái)這些數(shù)據(jù)不適合用線性回歸模型表示。因此我們
6、采
用如下模型斗?岡卜即7 其中八耳QJ)。假設(shè)我們采用極大似然估計(jì) w,請(qǐng)給出log
似然函數(shù)并給出 w的估計(jì)。(8分)
4 - A f
嚴(yán)八....
V *7 ¥4 k ij| nd g
p(yi|w,xi)~N(exp(wxi),1)
L(w)=logp(y|w,x)=-0.5* 工(yi-exp(wx))
令 g(w)=工[(yi-exp(wxi))*exp(wxi)*xi]=0 求得 w
3. 給定如下圖(b)所示的數(shù)據(jù)。從圖中我們可以看出該數(shù)據(jù)集有一些噪聲,請(qǐng)?jiān)O(shè)計(jì)一個(gè)對(duì)
噪聲魯棒的線性回歸模型,并簡(jiǎn)要分析該模型為什么能對(duì)噪聲魯棒。( 10分)
如圖離群點(diǎn)較多
7、(heavy tail),使用魯棒線性回歸模型: y=wTx+ & ~Laplace(vifx,b)
因?yàn)楫?dāng) y 服從拉式分布時(shí) L( 0 )=logp(D|X,w,b)=工 logLap(yi|Txi,b)=-N*log(2b)- 才剛血,其
損失為殘差絕對(duì)值和,對(duì)離群點(diǎn)不敏感;
而當(dāng)y服從正態(tài)分布時(shí),
L( 0 )=logp(D|X,w,b)= 工 logN(yi|w>-(N/2)*log(2 2)-冕(yi-Jxi)2/2 % 其損失為殘差平方和,
放大了誤差,對(duì)離群點(diǎn)敏感。因此使用 Laplace(或Student)線性回歸模型能對(duì)噪聲魯棒。
三、SVM分類。(第1~5題各
8、4分,第6題5分,共25分)
下圖為采用不同核函數(shù)或不同的松弛因子得到的 SVM決策邊界。但粗心的實(shí)驗(yàn)者忘記記錄
每個(gè)圖形對(duì)應(yīng)的模型和參數(shù)了。請(qǐng)你幫忙給下面每個(gè)模型標(biāo)出正確的圖形。
Ihf-eix
* A
1
■
*
■ ■
? A ■
'■ 1
■
>■ i
'■ -i
* *、、
■■ ?
墓沖上旦巧?cip -|i-r| |*
答:1.c 2.b 3.d 4.a 5.e
6、考慮帶松弛因子的線性 SVM分類器:
it-7.也〉;Wf 兇 Yr WJ"
F面有一些關(guān)于某些變量隨參數(shù)
C的增
9、大而變化的表述。如果表述總是成立,標(biāo)示
如果表述總是不成立,標(biāo)示 否”;如果表述的正確性取決于 C增大的具體情況,標(biāo)示
是”;
不一
(1) w0不會(huì)增大(不一定)
⑵||w||增大(不一定)
(3) ||w||不會(huì)減小 (是)
(4) 會(huì)有更多的訓(xùn)練樣本被分錯(cuò) (否)
⑸間隔(Margin)不會(huì)增大(是)
四、一個(gè)初學(xué)機(jī)器學(xué)習(xí)的朋友對(duì)房?jī)r(jià)進(jìn)行預(yù)測(cè)。 他在一個(gè)N=1000個(gè)房?jī)r(jià)數(shù)據(jù)的數(shù)據(jù)集上匹
配了一個(gè)有533個(gè)參數(shù)的模型,該模型能解釋數(shù)據(jù)集上 99%的變化。
1、請(qǐng)問(wèn)該模型能很好地預(yù)測(cè)來(lái)年的房?jī)r(jià)嗎?簡(jiǎn)單解釋原因。( 5分)
2、如果上述模型不能很好預(yù)測(cè)新的房?jī)r(jià), 請(qǐng)你設(shè)計(jì)一個(gè)合適的模型,給出模型的參數(shù)估計(jì),
并解釋你的模型為什么是合理的。( 10分)
答:1?不能。因?yàn)槟P蛥?shù)過(guò)多太復(fù)雜,訓(xùn)練集上擬合太好,把錯(cuò)誤點(diǎn)也考慮進(jìn)來(lái),因此發(fā) 生了過(guò)擬合,預(yù)測(cè)誤差較大。
2.對(duì)之進(jìn)行 L1正則,即Lasso回歸。y~N(wTx,知w~Lap(0,t)
L( 0 )=C-工(yl-w) 2/2 2-工 |wi|/b NLL=RSS+入 ||w||
通過(guò)調(diào)節(jié)L1正則系數(shù)入大小避免模型過(guò)擬合,而且估計(jì)w參數(shù)的同時(shí)進(jìn)行了特征選擇, 得系數(shù)w盡可能多的為0,簡(jiǎn)化了模型。
第5頁(yè)共4頁(yè)