【信息技術(shù)論文】測(cè)繪地理信息技術(shù)災(zāi)害信息提取方法

上傳人:冷*** 文檔編號(hào):17965141 上傳時(shí)間:2020-12-10 格式:DOCX 頁數(shù):4 大小:14.48KB
收藏 版權(quán)申訴 舉報(bào) 下載
【信息技術(shù)論文】測(cè)繪地理信息技術(shù)災(zāi)害信息提取方法_第1頁
第1頁 / 共4頁
【信息技術(shù)論文】測(cè)繪地理信息技術(shù)災(zāi)害信息提取方法_第2頁
第2頁 / 共4頁
【信息技術(shù)論文】測(cè)繪地理信息技術(shù)災(zāi)害信息提取方法_第3頁
第3頁 / 共4頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《【信息技術(shù)論文】測(cè)繪地理信息技術(shù)災(zāi)害信息提取方法》由會(huì)員分享,可在線閱讀,更多相關(guān)《【信息技術(shù)論文】測(cè)繪地理信息技術(shù)災(zāi)害信息提取方法(4頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、【信息技術(shù)論文】測(cè)繪地理信息技術(shù)災(zāi)害信息提取方法 摘要:隨著網(wǎng)絡(luò)技術(shù)迅速發(fā)展,海量數(shù)據(jù)分布在萬維網(wǎng)內(nèi),如何從數(shù)據(jù)中挖掘到特定的需要的數(shù)據(jù)成為時(shí)下研究的熱點(diǎn)。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動(dòng)抓取萬維網(wǎng)信息的程序或者腳本。本文探討使用網(wǎng)絡(luò)爬蟲的概念和方法,開發(fā)基于互聯(lián)網(wǎng)的聚焦網(wǎng)絡(luò)爬蟲軟件,迅速通過互聯(lián)網(wǎng)搜索山洪災(zāi)害點(diǎn)相關(guān)及時(shí)的第一手資料,形成對(duì)災(zāi)害的第一認(rèn)識(shí)。再經(jīng)過人工判讀,精確動(dòng)態(tài)提取、更新山洪災(zāi)害信息專題成果。 關(guān)鍵詞:萬維網(wǎng);聚焦網(wǎng)絡(luò)爬蟲;山洪災(zāi)害;動(dòng)態(tài)提取 1.引言 隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體。網(wǎng)絡(luò)信息更新及時(shí),傳

2、遞速度快,只要信息收集者及時(shí)發(fā)現(xiàn)信息,就可以保證較強(qiáng)的信息時(shí)效性。面對(duì)海量數(shù)據(jù),如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲可提取特定的需要的信息。網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)絡(luò)機(jī)器人,網(wǎng)頁蜘蛛),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。物聯(lián)網(wǎng)蘊(yùn)含了大量的動(dòng)態(tài)災(zāi)害信息

3、,是及時(shí)獲取目標(biāo)區(qū)域?yàn)?zāi)害點(diǎn)信息的重要途徑。傳統(tǒng)搜索引擎技術(shù)缺乏基于空間語義的認(rèn)知和推理能力,無法識(shí)別災(zāi)害發(fā)生的空間位置信息,無法提供基于互聯(lián)網(wǎng)的區(qū)域化災(zāi)害動(dòng)態(tài)監(jiān)控服務(wù)。本文基于聚焦網(wǎng)絡(luò)爬蟲有效收集網(wǎng)絡(luò)上的災(zāi)害信息,精準(zhǔn)過濾反映災(zāi)害信息內(nèi)容的網(wǎng)頁,獲取災(zāi)害事件的時(shí)間、空間位置以及災(zāi)害點(diǎn)信息。依托該系統(tǒng),可結(jié)合傳統(tǒng)的人工判讀技術(shù),依據(jù)地物波譜特性、空間特征和成像機(jī)制以及所掌握的地學(xué)規(guī)律,通過分析地物影像特征來識(shí)別災(zāi)害點(diǎn),準(zhǔn)確提取、更新災(zāi)害信息專題數(shù)據(jù),及時(shí)發(fā)布,輔助決策者參考使用。 2.聚焦網(wǎng)絡(luò)爬蟲概述 聚焦網(wǎng)絡(luò)爬蟲可以在較短的時(shí)間里,使用較少的硬件資源,獲取到更多

4、與主題相關(guān)的信息。相對(duì)于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲的工作原理較為復(fù)雜,根據(jù)一定的網(wǎng)頁分析算法過濾掉主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。本文網(wǎng)絡(luò)爬蟲引擎采用聚焦網(wǎng)絡(luò)爬蟲(FocusedCrawler),又稱主題網(wǎng)絡(luò)爬蟲(TopicalCrawler),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息

5、的需求。聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比,增加了鏈接評(píng)價(jià)模塊以及內(nèi)容評(píng)價(jià)模塊。聚焦爬蟲爬行策略實(shí)現(xiàn)的關(guān)鍵是評(píng)價(jià)頁面內(nèi)容和鏈接的重要性,不同的方法計(jì)算出的重要性不同,由此導(dǎo)致鏈接的訪問順序也不同。 3.山洪災(zāi)害信息 山洪是指山區(qū)溪溝中發(fā)生的暴漲洪水。山洪具有突發(fā)性,水量集中流速大、沖刷破壞力強(qiáng),水流中挾帶泥沙甚至石塊等,常造成局部性洪災(zāi),一般分為暴雨山洪、融雪山洪、冰川山洪等。山洪災(zāi)害常伴有山體崩塌、山體滑坡、泥石流等。山洪災(zāi)害信息是救災(zāi)工作的重要決策依據(jù),直接關(guān)系到自然災(zāi)害應(yīng)急處置、救援救助等救災(zāi)工作的有效開展。 4.基于聚焦網(wǎng)絡(luò)爬蟲的災(zāi)害信息動(dòng)態(tài)

6、提取方法研究 開發(fā)基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)爬蟲軟件,能迅速通過互聯(lián)網(wǎng)搜索災(zāi)害點(diǎn)相關(guān)及時(shí)的第一手資料,形成對(duì)災(zāi)害的第一認(rèn)識(shí)。通過已開發(fā)的網(wǎng)絡(luò)爬蟲軟件,能將所有與某一主題相關(guān)的所有信息羅列并進(jìn)行綜合分析篩選。通過借鑒國(guó)內(nèi)外語義相似度在信息檢索方面的研究成果,開發(fā)基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)爬蟲軟件,從各類信息數(shù)據(jù)庫中巨大的新聞事件類文本數(shù)據(jù)中及時(shí)發(fā)現(xiàn)并提取災(zāi)害專題新聞報(bào)道信息。結(jié)合高分遙感影像數(shù)據(jù)、基礎(chǔ)地理信息矢量數(shù)據(jù),輔以人工判讀,以確定各災(zāi)害專題信息發(fā)生的空間們位置信息,輸出災(zāi)害信息動(dòng)態(tài)提取成果專題圖,為災(zāi)害信息動(dòng)態(tài)更新提供服務(wù)。具體的技術(shù)路線參見下圖。(1)專題數(shù)據(jù)管理子系統(tǒng)負(fù)責(zé)災(zāi)害信息描述數(shù)據(jù)

7、(如泥石流、山洪、暴雨、地震等)、政府網(wǎng)站數(shù)據(jù)(網(wǎng)絡(luò)爬蟲目標(biāo)網(wǎng)站)、語義規(guī)則庫(災(zāi)害專題信息檢索模型的研究成果)的維護(hù)和更新。(2)信息檢索利用網(wǎng)絡(luò)爬蟲工具,從政府網(wǎng)站中抓取相關(guān)網(wǎng)頁并收集到本地,經(jīng)過加工處理建立本地網(wǎng)頁快照庫,對(duì)本地網(wǎng)頁快照庫進(jìn)行分析、整理,針對(duì)災(zāi)害信息描述關(guān)鍵詞建立一種利于快速查找的數(shù)據(jù)結(jié)構(gòu)即索引,并建立索引數(shù)據(jù)庫,以便在抓取到的網(wǎng)頁中進(jìn)行快速深入的災(zāi)害信息提取。(3)信息提取網(wǎng)頁信息數(shù)據(jù)庫中存儲(chǔ)的是HTML格式的文檔,這類文檔通常含有很多與網(wǎng)頁主題信息不相關(guān)的內(nèi)容,比如導(dǎo)航條、廣告信息、版權(quán)信息等內(nèi)容,它們只適合使用網(wǎng)頁瀏覽器進(jìn)行瀏覽,而不宜作為數(shù)據(jù)交換方式由計(jì)算機(jī)處理。

8、因此,需要開發(fā)網(wǎng)頁主題信息提取工具,從HTML這類非結(jié)構(gòu)化的文檔中提取出主題信息,輸出并保存為結(jié)構(gòu)化的文本,以便于對(duì)其進(jìn)行下一步的分析處理。(4)信息過濾通過網(wǎng)頁主題信息提取后獲取的結(jié)構(gòu)化文本數(shù)量多、數(shù)據(jù)冗余度高、不包含有效災(zāi)害信息描述的文本比重高,需要采用正向過濾(文本中必須包含的關(guān)鍵詞組合)、反向過濾(文本中不能包含的關(guān)鍵詞組合)等技術(shù)手段盡可能刪除那些不包含有效災(zāi)害信息的文本。最后,根據(jù)災(zāi)害專題信息檢索模型,從剩下的文本中檢索并提取出有效的災(zāi)害信息描述內(nèi)容。(5)人工判讀通過軟件自動(dòng)提取到的災(zāi)害信息屬性并不精確,需要后期進(jìn)行人工輔助判讀,結(jié)合高分影像,確定災(zāi)害發(fā)生的具體位置、進(jìn)一步明確災(zāi)

9、害屬性信息,同時(shí)剔除通過程序獲取到的重復(fù)信息。人工判讀確認(rèn)的災(zāi)害信息主要包括空間信息及屬性信息。空間信息包括災(zāi)害發(fā)生的位置信息及災(zāi)害發(fā)生的幾何類型;屬性信息包括災(zāi)害分類、災(zāi)害發(fā)生時(shí)間信息、災(zāi)害發(fā)生的區(qū)域、災(zāi)害發(fā)生的文字描述等信息。(6)成果輸出及發(fā)布經(jīng)過人工判讀后的災(zāi)情信息是比較準(zhǔn)確的,可直接用于更新災(zāi)害專題信息數(shù)據(jù)庫。結(jié)合其他影像、矢量等數(shù)據(jù)發(fā)布災(zāi)情信息動(dòng)態(tài)提取成果專題,將山洪災(zāi)害信息及時(shí)發(fā)布并打印輸出。同時(shí)提供網(wǎng)絡(luò)調(diào)用的服務(wù)接口,能通過設(shè)置地名關(guān)鍵詞、災(zāi)害類型、發(fā)生時(shí)間范圍、行政區(qū)域或坐標(biāo)范圍等篩選條件,可以將某一個(gè)位置周圍的歷史災(zāi)害相關(guān)信息全部羅列出來供決策者輔助參考。

10、5.結(jié)語 在山洪災(zāi)害信息提取中,基于聚焦網(wǎng)絡(luò)爬蟲方法對(duì)物聯(lián)網(wǎng)中海量數(shù)據(jù)信息利用程度較高,能夠綜合考慮災(zāi)害事件的時(shí)間、空間位置以及災(zāi)害點(diǎn)信息,快速獲取第一手資料數(shù)據(jù),再結(jié)合人工判讀,即可精確動(dòng)態(tài)提取、更新山洪災(zāi)害專題成果。也可以采集往年信息,建立預(yù)報(bào)模型,預(yù)測(cè)未來災(zāi)害發(fā)生區(qū)域,災(zāi)害種類等,可為決策者提供預(yù)防。本文基于聚焦網(wǎng)絡(luò)爬蟲,通過動(dòng)態(tài)提取災(zāi)害信息,結(jié)合人工判讀,研究了山洪災(zāi)害信息的提取、更新方法,可為決策者提供輔助依據(jù)。本文關(guān)于采集往年信息,建立模型,預(yù)測(cè)未來災(zāi)害發(fā)生區(qū)域、災(zāi)害種類,未作進(jìn)一步研究,希望拋磚引玉,引發(fā)一些思考。 參考文獻(xiàn): [1

11、]袁文,袁武,張海冬.基于互聯(lián)網(wǎng)的區(qū)域性災(zāi)害空間信息動(dòng)態(tài)監(jiān)測(cè)技術(shù)[C].國(guó)家綜合防災(zāi)減災(zāi)與可持續(xù)發(fā)展論壇,2010:200-207. [2]程向榮.分析測(cè)繪技術(shù)在地質(zhì)災(zāi)害中的作用[J].西部資源,2018(01):123-124. [6]孫立偉,何國(guó)輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究:電腦知識(shí)與技術(shù),2010. [7]張玉東,郭俊鋒,王林生.測(cè)繪技術(shù)在地質(zhì)災(zāi)害中的作用[J].科技與企業(yè),2012(20):251+253. [8]尹訓(xùn)志,王俊亮,張杰.測(cè)繪技術(shù)在地質(zhì)災(zāi)害中的作用探究[J].大科技,2018,000(030):221-222.

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!