深度學(xué)習(xí)之word2vec課件 共23頁(yè)

上傳人:文*** 文檔編號(hào):30026491 上傳時(shí)間:2021-10-09 格式:PPT 頁(yè)數(shù):23 大?。?.58MB
收藏 版權(quán)申訴 舉報(bào) 下載
深度學(xué)習(xí)之word2vec課件 共23頁(yè)_第1頁(yè)
第1頁(yè) / 共23頁(yè)
深度學(xué)習(xí)之word2vec課件 共23頁(yè)_第2頁(yè)
第2頁(yè) / 共23頁(yè)
深度學(xué)習(xí)之word2vec課件 共23頁(yè)_第3頁(yè)
第3頁(yè) / 共23頁(yè)

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《深度學(xué)習(xí)之word2vec課件 共23頁(yè)》由會(huì)員分享,可在線(xiàn)閱讀,更多相關(guān)《深度學(xué)習(xí)之word2vec課件 共23頁(yè)(23頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、深度學(xué)習(xí)之word2vec學(xué)習(xí)、分享與交流報(bào)告人:黃宇鵬目錄 基本概念 模型與方法 實(shí)戰(zhàn)與應(yīng)用詞向量 自然語(yǔ)言中的詞語(yǔ)在機(jī)器學(xué)習(xí)中表示符號(hào) One-hot Representation例如: “話(huà)筒”表示為 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麥克”表示為 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 實(shí)現(xiàn)時(shí)就可以用0,1,2,3,.來(lái)表示詞語(yǔ)進(jìn)行計(jì)算,這樣“話(huà)筒”就為3,“麥克”為8. 存在兩個(gè)問(wèn)題 維度比較大,尤其是用于 Deep Learning 的一些算法時(shí) 詞匯鴻溝:任意兩個(gè)詞之間都是孤立的,不能體現(xiàn)詞和詞之間的關(guān)系詞向量 Di

2、stributional Representation 詞表示為: 0.792, 0.177, 0.107, 0.109, 0.542, .,常見(jiàn)維度50或者100 解決“詞匯鴻溝”問(wèn)題 可以通過(guò)計(jì)算向量之間的距離(歐式距離、余弦距離等)來(lái)體現(xiàn)詞與詞的相似性 如何訓(xùn)練這樣的詞向量 沒(méi)有直接的模型可訓(xùn)練得到 可通過(guò)訓(xùn)練語(yǔ)言模型的同時(shí),得到詞向量語(yǔ)言模型 判斷一句話(huà)是不是正常人說(shuō)出來(lái)的,用數(shù)學(xué)符號(hào)描述為 給定一個(gè)字符串w1,w2,.,wt,計(jì)算它是自然語(yǔ)言的概率 ,一個(gè)很簡(jiǎn)單的推論是 例如,有個(gè)句子大家,喜歡,吃,蘋(píng)果 P(大家,喜歡,吃,蘋(píng)果)=p(大家)p(喜歡|大家)p(吃|大家,喜歡)p(

3、蘋(píng)果|大家,喜歡,吃) 簡(jiǎn)單表示為 計(jì)算 問(wèn)題),.,(21twwwp),.,|(.),|()|()(),.,(12121312121tttwwwwpwwwpwwpwpwwwpTiiiTContextwpwwwpsp121)|(),.,()()|(iiContextwp語(yǔ)言模型 現(xiàn)有模型 N-gram模型 N-pos模型 . Bengio的NNLM C&W 的 SENNA M&H 的 HLBL Mikolov 的 RNNLM Huang 的語(yǔ)義強(qiáng)化 .word2vec原理 兩種模型,兩種方法模型模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative Samp

4、lingHierarchical SoftmaxNegative SamplingCBOW模型+Hierarchical Softmax方法 CBOW模型 INPUT:輸入層 PROJECTION:投影層 OUTPUT:輸出層 w(t):當(dāng)前詞語(yǔ)(向量) w(t-2),w(t-1),w(t+1),w(t+2):當(dāng)前詞語(yǔ)的上下文 SUM:上下文的累加和CBOW模型+Hierarchical Softmax方法(續(xù))CBOW模型+Hierarchical Softmax方法(續(xù))為什么建哈夫曼樹(shù)?非葉子結(jié)點(diǎn)為L(zhǎng)R分類(lèi)器葉子結(jié)點(diǎn)對(duì)應(yīng)詞典中的一個(gè)詞目標(biāo):)|(iiContextwpCBOW模型+Hie

5、rarchical Softmax方法(續(xù)) 句子:我,喜歡,觀看,巴西,足球,世界杯 w=足球CBOW模型+Hierarchical Softmax方法(續(xù)) 正類(lèi)概率: 負(fù)類(lèi)概率: 足球 葉子節(jié)點(diǎn)經(jīng)過(guò)4次二分類(lèi),每次分類(lèi)結(jié)果對(duì)應(yīng)的概率為 由Context(足球)預(yù)測(cè)足球出現(xiàn)的概率CBOW模型+Hierarchical Softmax方法(續(xù))wljwjwwjXdpwContextwp21),|()(|( 對(duì)于詞典中的每個(gè)詞w有, 結(jié)點(diǎn)個(gè)數(shù) 其中, 或者表示為 對(duì)于由S個(gè)句子組成的語(yǔ)料庫(kù)C有 取對(duì)數(shù)似然函數(shù). 1),(1; 0),(),|(111wjwjTxwjwjTxwjwwjdXdXXd

6、pwjwjdwjTwdwjTwwjwwjXXXdp)(1 )(),|(1111CsswljwjwwjCsswwXdpwContextwpXL21),|()(|(),()(1log()(log)1(),|(log),(log21121CsswljwjTwwjwjTwwjCsswljwjwwjwwXdXdXdpXLwl參數(shù)1參數(shù)2CBOW模型+Hierarchical Softmax方法(續(xù)))(1log()(log)1 (),(11wjTwwjwjTwwjXdXdjwfwj 1 梯度下降法進(jìn)行求解 令 f(w,j)關(guān)于 和 的梯度分別為 更新公式wXwwjTwwjwjXXdjwf)(1 ),(1

7、1wjwjTwwjwXdXjwf11)(1 ),(wjwjwjjwf111),(:wljwwContextwXjwfwVwV2)(,),()(: )(word2vec實(shí)戰(zhàn)(一) 訓(xùn)練數(shù)據(jù)集:經(jīng)過(guò)分詞后的新聞數(shù)據(jù),大小184MB 查看中國(guó),釣魚(yú)島,旅游,蘋(píng)果幾個(gè)詞語(yǔ)的相似詞語(yǔ)如下所示word2vec實(shí)戰(zhàn)(一) 向量加減法 中國(guó)+北京-日本,中國(guó)+北京-法國(guó),家庭+孩子-學(xué)校word2vec應(yīng)用(一) 機(jī)器翻譯 語(yǔ)言詞語(yǔ)的關(guān)系集合被表征為向量集合 向量空間內(nèi),不同語(yǔ)言享有許多共性 實(shí)現(xiàn)一個(gè)向量空間到另一個(gè)向量空間的映射和轉(zhuǎn)換 圖為英語(yǔ)和西班語(yǔ)的五個(gè)詞在向量空間中的位置(已經(jīng)過(guò)降維) 對(duì)英語(yǔ)和西班語(yǔ)

8、之間的翻譯準(zhǔn)確率高達(dá)90%word2vec應(yīng)用(三) 給廣告主推薦用戶(hù) T媒體網(wǎng)站用戶(hù)瀏覽網(wǎng)頁(yè)的記錄 pageH是匹克體育用品公司在T上的官網(wǎng) page2,page3,page5和pageH是比較相似的頁(yè)面 可給匹克體育用品公司推薦經(jīng)常瀏覽page2,3,5這個(gè)幾個(gè)頁(yè)面的用戶(hù)進(jìn)行廣告投放word2vec應(yīng)用(三) 相似的頁(yè)面計(jì)算過(guò)程word2vec應(yīng)用(三)續(xù) 對(duì)ctr預(yù)估模型的幫助 新廣告上線(xiàn)存在冷啟動(dòng)問(wèn)題 通過(guò)比較相似的廣告的點(diǎn)擊率來(lái)預(yù)估這個(gè)廣告的點(diǎn)擊率 由上個(gè)例子可得到每個(gè)頁(yè)面的向量,然后通過(guò)Kmeans進(jìn)行聚類(lèi),得到比較相似頁(yè)面的簇? 向頁(yè)面向量添加其它的特征,例如廣告主所屬的行業(yè)和地

9、域等 假設(shè)頁(yè)面p1的向量是(0.3,-0.5,0.1),加入行業(yè)和地域信息后為(0.3,-0.5,0.1,1,0),1和0分別表示行業(yè)和地域的特征值 這樣得到的聚類(lèi)效果相對(duì)更好參考文獻(xiàn)1 .csdn/mytestmy/article/details/26969149 深度學(xué)習(xí)word2vec筆記之算法篇 2 .csdn/itplus/article/details/37969979 word2vec 中的數(shù)學(xué)原理詳解(四)基于 Hierarchical Softmax 的模型 3 zhihu/question/21661274/answer/19331979 楊超在知乎上的問(wèn)答Word2Vec

10、的一些理解4 xiaoquanzi/?p=156 hisen博客的博文5 .csdn/mytestmy/article/details/38612907 深度學(xué)習(xí)word2vec筆記之應(yīng)用篇 6 tech.youdao/?p=915 Deep Learning實(shí)戰(zhàn)之word2vec,網(wǎng)易有道的pdf7 .csdn/lingerlanlan/article/details/38232755 word2vec源碼解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Y

11、oshua Bengio.9 Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean.10 A neural probabilistic language model Y. Bengio, R. Ducharme, P. Vincent.11 Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig.12 Efficient Estimation of Word Representations in Vector Space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean.13licstar/archives/328 Deep Learning in NLP (一)詞向量和語(yǔ)言模型thank you !Q&A謝謝

展開(kāi)閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話(huà):18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶(hù)上傳的文檔直接被用戶(hù)下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!