機(jī)器學(xué)習(xí)課件

上傳人：sha****en 文檔編號(hào)：23640842 上傳時(shí)間：2021-06-10 格式：PPT 頁數(shù)：52 大?。?.19MB

收藏版權(quán)申訴舉報(bào) 下載

第1頁 / 共52頁

第2頁 / 共52頁

第3頁 / 共52頁

下載文檔到電腦，查找使用更方便

14.9 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《機(jī)器學(xué)習(xí)課件》由會(huì)員分享，可在線閱讀，更多相關(guān)《機(jī)器學(xué)習(xí)課件（52頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、目錄一大數(shù)據(jù)與云計(jì)算二機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能三編程語言的選擇四機(jī)器學(xué)習(xí)算法介紹五算法案例介紹一大數(shù)據(jù)與云計(jì)算什么是大數(shù)據(jù)？大數(shù)據(jù)特征定義大數(shù)據(jù)時(shí)代要具備大數(shù)據(jù)思維維克托邁爾-舍恩伯格認(rèn)為：1 -需要全部數(shù)據(jù)樣本而不是抽樣;2 -關(guān)注效率而不是精確度;3 -關(guān)注相關(guān)性而不是因果關(guān)系。大數(shù)據(jù)并不在“大”，而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。大數(shù)據(jù)的價(jià)值所在？如果把大數(shù)據(jù)比作一種產(chǎn)業(yè)，那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵，在于提高對(duì)數(shù)據(jù)的“加工能力”，通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。未來在大數(shù)據(jù)領(lǐng)域最具有價(jià)值的是兩種事物：1 -擁有大數(shù)據(jù)思維的人，這種人可以將大

2、數(shù)據(jù)的潛在價(jià)值轉(zhuǎn)化為實(shí)際利益; 2 -還未有被大數(shù)據(jù)觸及過的業(yè)務(wù)領(lǐng)域。這些是還未被挖掘的油井，金礦，是所謂的藍(lán)海。云計(jì)算和大數(shù)據(jù)的關(guān)系云計(jì)算充當(dāng)了工業(yè)革命時(shí)期的發(fā)動(dòng)機(jī)的角色，而大數(shù)據(jù)則是電。云計(jì)算思想：把計(jì)算能力作為一種像水和電一樣的公用事業(yè)提供給用戶。二機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能任何通過數(shù)據(jù)訓(xùn)練的學(xué)習(xí)算法的相關(guān)研究都屬于機(jī)器學(xué)習(xí)。比如線性回歸（Linear Regression）、K均值（K-means，基于原型的目標(biāo)函數(shù)聚類方法）、決策樹（Decision Trees，運(yùn)用概率分析的一種圖解法）、隨機(jī)森林（Random Forest，運(yùn)用概率分析的一種圖解法）、PCA（Pri

3、ncipal Component Analysis，主成分分析）、SVM（Support Vector Machine，支持向量機(jī)）以及ANN（Artificial Neural Networks，人工神經(jīng)網(wǎng)絡(luò)）。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究，通過組合低層特征形成更加抽象的高層表示屬性類別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域，其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，它模仿人腦的機(jī)制來解釋數(shù)據(jù)，例如圖像，聲音和文本。人工智能企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器，該領(lǐng)域的研究包括語音識(shí)別、圖像識(shí)別、機(jī)器

4、人、自然語言處理、智能搜索和專家系統(tǒng)等。人工智能與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系三編程語言的選擇 PKR 與 Python 語言的區(qū)別學(xué)習(xí)難度大入門簡單適合處理大量數(shù)據(jù)功能強(qiáng)大命令式編程統(tǒng)計(jì)功能強(qiáng)大 Python在線學(xué)習(xí)推薦-菜鳥教程 Anaconda：初學(xué)Python、入門機(jī)器學(xué)習(xí)的首選NumPyScipyTensorFlowMatplotlibPandasScikit-Learn 四機(jī)器學(xué)習(xí)算法介紹擁抱人工智能從機(jī)器學(xué)習(xí)開始機(jī)器學(xué)習(xí)最大的特點(diǎn)是利用數(shù)據(jù)而不是指令來進(jìn)行各種工作，其學(xué)習(xí)過程主要包括：數(shù)據(jù)的特征提取、數(shù)據(jù)預(yù)處理、訓(xùn)練模型、測(cè)試模型、模型評(píng)估改進(jìn)等幾部分。機(jī)器學(xué)習(xí)算法是使

5、計(jì)算機(jī)具有智能的關(guān)鍵算法是通過使用已知的輸入和輸出以某種方式“訓(xùn)練”以對(duì)特定輸入進(jìn)行響應(yīng)。代表著用系統(tǒng)的方法描述解決問題的策略機(jī)制。人工智能的發(fā)展離不開機(jī)器學(xué)習(xí)算法的不斷進(jìn)步。機(jī)器學(xué)習(xí)算法分類 1 . 線性回歸：找到一條直線來預(yù)測(cè)目標(biāo)值一個(gè)簡單的場(chǎng)景：已知房屋價(jià)格與尺寸的歷史數(shù)據(jù)，問面積為2 0 0 0時(shí)，售價(jià)為多少？線性回歸的應(yīng)用預(yù)測(cè)客戶終生價(jià)值：基于老客戶歷史數(shù)據(jù)與客戶生命周期的關(guān)聯(lián)關(guān)系，建立線性回歸模型，預(yù)測(cè)新客戶的終生價(jià)值，進(jìn)而開展針對(duì)性的活動(dòng)。機(jī)場(chǎng)客流量分布預(yù)測(cè)：以海量機(jī)場(chǎng)WiFi數(shù)據(jù)及安檢登機(jī)值機(jī)數(shù)據(jù)，通過數(shù)據(jù)算法實(shí)現(xiàn)機(jī)場(chǎng)航站樓客流分析與預(yù)測(cè)。貨幣基金資金流入流出預(yù)測(cè)：通

6、過用戶基本信息數(shù)據(jù)、用戶申購贖回?cái)?shù)據(jù)、收益率表和銀行間拆借利率等信息，對(duì)用戶的申購贖回?cái)?shù)據(jù)的把握，精準(zhǔn)預(yù)測(cè)未來每日的資金流入流出情況。電影票房預(yù)測(cè)：依據(jù)歷史票房數(shù)據(jù)、影評(píng)數(shù)據(jù)、輿情數(shù)據(jù)等互聯(lián)網(wǎng)公眾數(shù)據(jù)，對(duì)電影票房進(jìn)行預(yù)測(cè)。 2 . 邏輯回歸：找到一條直線來分類數(shù)據(jù)邏輯回歸雖然名字叫回歸，卻是屬于分類算法，是通過Sigmoid函數(shù)將線性函數(shù)的結(jié)果映射到Sigmoid函數(shù)中，預(yù)估事件出現(xiàn)的概率并分類。邏輯回歸從直觀上來說是畫出了一條分類線。位于分類線一側(cè)的數(shù)據(jù)，概率0 .5 ,屬于分類A；位于分類線另一側(cè)的數(shù)據(jù)，概率啤酒，它的置信度為尿布 - 啤酒假設(shè)尿布, 啤酒的支持度為 0 .4

7、5，尿布的支持度為 0 .5，則尿布 - 啤酒的置信度為 0 .4 5 / 0 .5 = 0 .9。 9 . PCA降維：減少數(shù)據(jù)維度，降低數(shù)據(jù)復(fù)雜度降維是指將原高維空間中的數(shù)據(jù)點(diǎn)映射到低維度的空間中。因?yàn)楦呔S特征的數(shù)目巨大，距離計(jì)算困難，分類器的性能會(huì)隨著特征數(shù)的增加而下降；減少高維的冗余信息所造成的誤差,可以提高識(shí)別的精度。 1 0 . 人工神經(jīng)網(wǎng)絡(luò)：逐層抽象，逼近任意函數(shù)前面介紹了九種傳統(tǒng)的機(jī)器學(xué)習(xí)算法，現(xiàn)在介紹一下深度學(xué)習(xí)的基礎(chǔ)：人工神經(jīng)網(wǎng)絡(luò)。它是模擬人腦神經(jīng)網(wǎng)絡(luò)而設(shè)計(jì)的模型，由多個(gè)節(jié)點(diǎn)（人工神經(jīng)元）相互聯(lián)結(jié)而成，可以用來對(duì)數(shù)據(jù)之間的復(fù)雜關(guān)系進(jìn)行建模。例如利用單層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)邏輯與

8、門和同或門多層神經(jīng)網(wǎng)絡(luò)的每一層神經(jīng)元學(xué)習(xí)到的是前一層神經(jīng)元值的更抽象的表示，通過抽取更抽象的特征來對(duì)事物進(jìn)行區(qū)分，從而獲得更好的區(qū)分與分類能力。 1 1 . 深度學(xué)習(xí)：賦予人工智能以璀璨的未來深度學(xué)習(xí)就是一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法，使用多層網(wǎng)絡(luò)，能夠?qū)W習(xí)抽象概念，同時(shí)融入自我學(xué)習(xí)，逐步從大量的樣本中逐層抽象出相關(guān)的概念，然后做出理解，最終做出判斷和決策。通過構(gòu)建具有一定“深度”的模型，可以讓模型來自動(dòng)學(xué)習(xí)好的特征表示（從底層特征，到中層特征，再到高層特征），從而最終提升預(yù)測(cè)或識(shí)別的準(zhǔn)確性。深度學(xué)習(xí)的歷史變遷：深度學(xué)習(xí)經(jīng)歷了三次浪潮： 2 0世紀(jì)4 0年代6 0年年代，深度學(xué)習(xí)的雛形出

9、現(xiàn)在控制論中； 2 0世界8 0年代9 0年代，深度學(xué)習(xí)表現(xiàn)為聯(lián)結(jié)主義； 2 0 0 6年以后，正式以深度學(xué)習(xí)之名復(fù)興。第一次浪潮：以感知機(jī)和線性模型為代表不能解決與或問題第二次浪潮：以多層感知機(jī)和BP模型為代表以統(tǒng)計(jì)學(xué)為基礎(chǔ)，應(yīng)用核函數(shù)和圖模型的支持向量機(jī)算法（SVM算法）等各種淺層有監(jiān)督的機(jī)器學(xué)習(xí)模型廣泛應(yīng)用，且深度神經(jīng)網(wǎng)絡(luò)不可訓(xùn)練第三次浪潮：以無監(jiān)督學(xué)習(xí)為代表。解決了深層神經(jīng)網(wǎng)絡(luò)的計(jì)算能力問題；解決了深度神經(jīng)網(wǎng)絡(luò)后向誤差反饋梯度消失的問題。最初，人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元之間的連接數(shù)受限于硬件能力。而現(xiàn)在，神經(jīng)元之間的連接數(shù)大多是出于設(shè)計(jì)考慮。一些人工神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元的連接數(shù)與貓

10、一樣多，并且對(duì)于其他神經(jīng)網(wǎng)絡(luò)來說，每個(gè)神經(jīng)元的連接數(shù)與較小哺乳動(dòng)物（如小鼠）一樣多，這種情況是非常普遍的。甚至人類大腦每個(gè)神經(jīng)元的連接數(shù)也沒有過高的數(shù)量。 1 . 自適應(yīng)線性單元（Widrow and Hoff, 1 9 6 0）；2 . 神經(jīng)認(rèn)知機(jī) （Fukushima, 1 9 8 0）；3 . GPU- 加速卷積網(wǎng)絡(luò) （Chellapilla et al., 2 0 0 6）；4 . 深度玻爾茲曼機(jī) （Salakhutdinov and Hinton, 2 0 0 9 a）；5 . 無監(jiān)督卷積網(wǎng)絡(luò) （Jarrett et al., 2 0 0 9 b）；6 . GPU- 加速多層感

11、知機(jī) （Ciresan et al., 2 0 1 0）；7 . 分布式自編碼器（Le et al., 2 0 1 2）；8 . Multi-GPU 卷積網(wǎng)絡(luò)（Krizhevsky et al., 2 0 1 2 a）；9 . COTS HPC 無監(jiān)督卷積網(wǎng)絡(luò) （Coates et al., 2 0 1 3）；1 0 . GoogLeNet （Szegedy et al., 2 0 1 4 a 與日俱增的每個(gè)神經(jīng)元的連接數(shù) 自從引入隱藏單元，人工神經(jīng)網(wǎng)絡(luò)的規(guī)模大約每 2 .4 年翻一倍。 1 . 感知機(jī) （Rosenblatt, 1 9 5 8 , 1 9 6 2）；2 . 自適應(yīng)線性單元

12、（Widrow and Hoff,1 9 6 0）；3 . 神經(jīng)認(rèn)知機(jī) （Fukushima, 1 9 8 0）；4 . 早期后向傳播網(wǎng)絡(luò) （Rumelhart et al., 1 9 8 6 b）；5 . 用于語音識(shí)別的循環(huán)神經(jīng)網(wǎng)絡(luò) （Robinson and Fallside, 1 9 9 1）；6 . 用于語音識(shí)別的多層感知機(jī) （Bengio et al., 1 9 9 1）；7 . 均勻場(chǎng) sigmoid 信念網(wǎng)絡(luò) （Saul et al., 1 9 9 6）；8 . LeNet5 （LeCun et al., 1 9 9 8 c）；9 . 回聲狀態(tài)網(wǎng)絡(luò) （Jaeger and Haa

13、s, 2 0 0 4）；1 0 . 深度信念網(wǎng)絡(luò) （Hinton et al., 2 0 0 6 a）；1 1 . GPU- 加速卷積網(wǎng)絡(luò) （Chellapilla et al., 2 0 0 6）；1 2 . 深度玻爾茲曼機(jī) （Salakhutdinov and Hinton, 2 0 0 9 a）；1 3 . GPU加速深度信念網(wǎng)絡(luò) （Raina et al., 2 0 0 9 a）；1 4 . 無監(jiān)督卷積網(wǎng)絡(luò) （Jarrett et al., 2 0 0 9 b）；1 5 . GPU- 加速多層感知機(jī) （Ciresan et al., 2 0 1 0）；1 6 . OMP-1 網(wǎng)絡(luò) （C

14、oates and Ng, 2 0 1 1）；1 7 . 分布式自編碼器（Le et al., 2 0 1 2）；1 8 . MultiGPU 卷積網(wǎng)絡(luò) （Krizhevsky et al., 2 0 1 2 a）；1 9 . COTS HPC 無監(jiān)督卷積網(wǎng)絡(luò) （Coates et al., 2 0 1 3）；2 0 . GoogLeNet （Szegedy et al., 2 0 1 4 a）與日俱增的神經(jīng)網(wǎng)絡(luò)規(guī)模目前深度學(xué)習(xí)的應(yīng)用十分廣泛，例如圖像識(shí)別、語音識(shí)別、機(jī)器翻譯、自動(dòng)駕駛、金融風(fēng)控、智能機(jī)器人等。五算法案例介紹 K近鄰法(KNN)原理 K近鄰法(k-nearest ne

15、ighbors,KNN)是一種很基本的機(jī)器學(xué)習(xí)方法了，在我們平常的生活中也會(huì)不自主的應(yīng)用。比如，我們判斷一個(gè)人的人品，只需要觀察他來往最密切的幾個(gè)人的人品好壞就可以得出了。 KNN做回歸和分類的主要區(qū)別在于最后做預(yù)測(cè)時(shí)候的決策方式不同。KNN做分類預(yù)測(cè)時(shí)，一般是選擇多數(shù)表決法，即訓(xùn)練集里和預(yù)測(cè)的樣本特征最近的K個(gè)樣本，預(yù)測(cè)為里面有最多類別數(shù)的類別。而KNN做回歸時(shí)，一般是選擇平均法，即最近的K個(gè)樣本的樣本輸出的平均值作為回歸預(yù)測(cè)值。由于兩者區(qū)別不大，本次主要是講解KNN 的分類方法，但思想對(duì)KNN的回歸方法也適用。 KNN 場(chǎng)景電影可以按照題材分類，那么如何區(qū)分動(dòng)作片和愛情片呢？動(dòng)作片：打

16、斗次數(shù)更多愛情片：親吻次數(shù)更多基于電影中的親吻、打斗出現(xiàn)的次數(shù)，使用 k-近鄰算法構(gòu)造程序，就可以自動(dòng)劃分電影的題材類型。 KNN 計(jì)算步驟假設(shè)有一個(gè)帶有標(biāo)簽的樣本數(shù)據(jù)集（訓(xùn)練樣本集），其中包含每條數(shù)據(jù)與所屬分類的對(duì)應(yīng)關(guān)系。輸入沒有標(biāo)簽的新數(shù)據(jù)后，將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較。計(jì)算新數(shù)據(jù)與樣本數(shù)據(jù)集中每條數(shù)據(jù)的距離。計(jì)算距離時(shí)直接使用了歐式距離公式，計(jì)算兩個(gè)向量點(diǎn)之間的距離對(duì)求得的所有距離進(jìn)行排序（從小到大，越小表示越相似）。取前k（k 一般小于等于 2 0 ）個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的分類標(biāo)簽。求k個(gè)數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類標(biāo)簽作為新數(shù)據(jù)的分類。 KNN 算法特優(yōu)點(diǎn)：1）理論

17、成熟，思想簡單，既可以用來做分類也可以用來做回歸2）可用于非線性分類3）訓(xùn) 練時(shí) 間復(fù) 雜度比支持向量機(jī) 之類的算法低，僅為 O(n)4）和樸素貝葉斯之類的算法比，對(duì) 數(shù) 據(jù) 沒有假設(shè) ，準(zhǔn) 確度高，對(duì) 異常點(diǎn) 不敏感5）由于 KNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對(duì) 于類域的交叉或重疊較多的待分

18、樣本集來說， KNN方法較其他方法更為適合6）該算法比較適用于樣本容量比較大的類域的自動(dòng) 分類，而那些樣本容量較小的類域采用這種算法比較容易產(chǎn) 生誤分缺點(diǎn)：1）計(jì) 算量大，尤其是特征數(shù) 非常多的時(shí) 候 2）樣本不平衡的時(shí) 候，對(duì) 稀有類別的預(yù) 測(cè) 準(zhǔn) 確率低3） KD樹，球樹之類的模型建立需要大量的內(nèi) 存4）使用懶散學(xué) 習(xí) 方法，導(dǎo) 致預(yù) 測(cè) 時(shí) 速度比起邏

19、輯回歸之類的算法慢5）相比決策樹模型， KNN模型可解釋性不強(qiáng)適用數(shù)據(jù)范圍：數(shù) 值型和標(biāo) 稱型下面我們通過實(shí)例來演示如何實(shí)現(xiàn)一個(gè)簡單的KNN 算法首先，我們準(zhǔn)備一個(gè)簡單數(shù)據(jù)集，是由二維空間上的四個(gè)點(diǎn)構(gòu)成的矩陣（A，籃圓圈； B 紅三角）那么，對(duì)于一個(gè)新的向量 0 .2 , 0 .2 ，它應(yīng)該屬于那個(gè)類別的呢？從圖上看，它距離 B比較近，應(yīng)該屬于 B類別。分類X YA 1 .0 1 .1A 1 .0 1 .0B 0 0B 0 1 .0 剛剛采用直觀的方法，講了KNN的原理，接下來我們上代碼。 Python編輯器有很多，前面也推薦大家使用 Anaconda 。這是一個(gè)集成的工作環(huán)境，它除了提供 Spyder 編譯環(huán)境之外，還提供了一個(gè) Notebook的編譯環(huán)境。下面我們采用Notebook環(huán)境，給大家示范KNN的原理代碼。

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

點(diǎn)擊下載此資源

機(jī)器學(xué)習(xí)課件

最新文檔

相關(guān)資源

相關(guān)搜索