網(wǎng)站怎么做的黑客入侵網(wǎng)課
文章目錄
- 知識融合
- 知識融合過程
- 研究現(xiàn)狀
- 技術(shù)發(fā)展趨勢
知識融合
????知識融合的概念最早出現(xiàn)在1983年發(fā)表的文獻(xiàn)中,并在20世紀(jì)九十年代得到研究者的廣泛關(guān)注。而另一種知識融合的定義是指對來自多源的不同概念、上下文和不同表達(dá)等信息進(jìn)行融合的過程認(rèn)為知識融合的目標(biāo)是產(chǎn)生新的知識,是對松耦合來源中的知識進(jìn)行集成,構(gòu)成一個合成的資源,用來補(bǔ)充不完全的知識和獲取新知識。在總結(jié)眾多知識融合概念的基礎(chǔ)上認(rèn)為知識融合是知識組織與信息融合的交叉學(xué)科,它面向需求和創(chuàng)新,通過對眾多分散、異構(gòu)資源上知識的獲取、匹配、集成、挖掘等處理,獲取隱含的或有價(jià)值的新知識,同時(shí)優(yōu)化知識的結(jié)構(gòu)和內(nèi)涵,提供知識服務(wù)。
知識融合過程
????知識融合是一個不斷發(fā)展變化的概念,盡管以往研究人員的具體表述不同、所站角度不同、強(qiáng)調(diào)的側(cè)重點(diǎn)不同,但這些研究成果中還是存在很多共性,這些共性反應(yīng)了知識融合的固有特征,可以將知識融合與其他類似或相近的概念區(qū)分開來。知識融合是面向知識服務(wù)和決策問題,以多源異構(gòu)數(shù)據(jù)為基礎(chǔ),在本體庫和規(guī)則庫的支持下,通過知識抽取和轉(zhuǎn)換獲得隱藏在數(shù)據(jù)資源中的知識因子及其關(guān)聯(lián)關(guān)系,進(jìn)而在語義層次上組合、推理、創(chuàng)造出新知識的過程,并且這個過程需要根據(jù)數(shù)據(jù)源的變化和用戶反饋進(jìn)行實(shí)時(shí)動態(tài)調(diào)整。從流程角度對知識融合概念進(jìn)行分解,如下圖所示。

研究現(xiàn)狀
????知識融合從融合層面劃分可以分為數(shù)據(jù)層知識融合與概念層知識融合,數(shù)據(jù)層知識融合主要研究實(shí)體鏈接、實(shí)體消解,是面向知識圖譜實(shí)例層的知識融合;概念層知識融合主要研究本體對齊、跨語言融合等技術(shù)。
????實(shí)體鏈接問題是數(shù)據(jù)層知識融合研究的主要任務(wù),其核心是構(gòu)建多類型多模態(tài)上下文及知識的統(tǒng)一表示,并建模不同信息、不同證據(jù)之間的相互交互,主要的實(shí)體鏈接方法有:基于實(shí)體知識的鏈接方法、基于篇章主題的鏈接方法和融合實(shí)體知識與篇章主題的實(shí)體鏈接方法。
????概念層知識融合是對多個知識庫或者信息源在概念層進(jìn)行模式對齊的過程。本體對齊或者本體匹配是概念層知識融合主要研究任務(wù),是指確定本體概念之間映射關(guān)系的過程。本體匹配可以分為單語言本體匹配和跨語言本體匹配,單語言本體匹配是指同一自然語言中本體的對齊映射,跨語言本體匹配是指從兩個或多個獨(dú)立的語言本體中建立本體之間映射關(guān)系的過程。本體匹配的研究核心就在于如何通過本體概念之間的相似性度量,發(fā)現(xiàn)異構(gòu)本體間的匹配關(guān)系,本體匹配基本方法包括基于結(jié)構(gòu)的方法、基于實(shí)例的方法、基于語言學(xué)的匹配算法、基于文本的匹配算法和基于已知本體實(shí)體聯(lián)結(jié)的匹配算法。
????在大數(shù)據(jù)時(shí)代背景下,如何將跨語言的知識圖譜進(jìn)行對齊與融合,實(shí)現(xiàn)知識的全球共享,為跨語言知識服務(wù)提供便利,是知識圖譜進(jìn)一步研究的過程中需要解決的問題??缯Z言知識圖譜研究的目的是構(gòu)建一個包含當(dāng)前重要知識庫的大規(guī)??缯Z言知識庫,提高不同語言之間鏈接數(shù)據(jù)的國際化以及知識共享全球化,便于跨語言信息檢索、機(jī)器翻譯和跨語言知識問答等跨語言處理任務(wù)的研究與應(yīng)用。構(gòu)建了一個有42萬中英跨語言實(shí)體鏈接的雙語言知識圖譜(XLORE2),自動化融合了來自維基百科、百度百科和互動百科的信息。
????現(xiàn)有的知識融合工具包括:Falcon-AO、YAM++、Dedupe等。以Falcon-AO為例,其是由南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室開發(fā)的一個基于Java的自動本體匹配系統(tǒng),已經(jīng)成為RDF(S)和OWL所表達(dá)的Web本體相匹配的一種實(shí)用和流行的選擇。Falcon-AO系統(tǒng)采用了相似度組合策略,首先使用PMO進(jìn)行分而治之,然后使用語言學(xué)算法(V-Doc、I-Sub)進(jìn)行處理,然后使用結(jié)構(gòu)學(xué)算法(GMO)接收前兩者結(jié)果再做處理,最后連通前面兩者的輸出使用貪心算法進(jìn)行選取。
技術(shù)發(fā)展趨勢
????盡管知識融合已經(jīng)在學(xué)術(shù)和工業(yè)應(yīng)用中取得了非常顯著的成效,然而隨著網(wǎng)絡(luò)社會數(shù)據(jù)特征、跨語言融合、知識規(guī)模增加等帶來挑戰(zhàn)越發(fā)緊迫,針對短文本及資源缺乏環(huán)境下的實(shí)體鏈接方法、融合先驗(yàn)知識的深度學(xué)習(xí)端到端實(shí)體鏈接方法、大規(guī)模本體的高效匹配方法將成為未來研究的重要趨勢。
????傳統(tǒng)的實(shí)體鏈接任務(wù)主要是針對長文檔,長文檔擁有在寫的上下文信息能輔助實(shí)體的歧義消解并完成鏈接。而由于日常生活中人們在社交網(wǎng)絡(luò)中常常會產(chǎn)生大量短文本數(shù)據(jù),相比之下,短文本的實(shí)體鏈接存在口語化嚴(yán)重、短文本上下文語境不豐富等巨大挑戰(zhàn),因而面向短文本的實(shí)體鏈接方法研究將會成為未來的研究熱點(diǎn)。另外目前絕大部分的實(shí)體鏈接模型依賴于有監(jiān)督模型,需要大量標(biāo)簽數(shù)據(jù)集訓(xùn)練來達(dá)到實(shí)用目的。因此短文本及資源缺乏環(huán)境下,基于無監(jiān)督/半監(jiān)督和遷移學(xué)習(xí)的實(shí)體鏈接模型是解決問題的關(guān)鍵。
????今年來,基于深度學(xué)習(xí)模型(如BiLSTM-CRF)在實(shí)體鏈接任務(wù)上取得了較大的進(jìn)展,同時(shí)展現(xiàn)出了巨大的應(yīng)用潛力,然而基于深度學(xué)習(xí)的算法訓(xùn)練需要大量標(biāo)注數(shù)據(jù)集,缺少面向特定領(lǐng)域特點(diǎn)和任務(wù)的針對性設(shè)計(jì)。另一方面當(dāng)前實(shí)體鏈接方法易受到實(shí)體識別等前序過程的誤差影響,因此結(jié)合先驗(yàn)知識訓(xùn)練端到端深度學(xué)習(xí)實(shí)體鏈接模型成為未來的一大研究趨勢。針對這個問題,一方面,當(dāng)前許多算法嘗試已經(jīng)證明結(jié)合先驗(yàn)知識的思路在實(shí)體鏈接任務(wù)中的有效性,如在深度學(xué)習(xí)模型中增加句法結(jié)構(gòu)、語言學(xué)知識、特定領(lǐng)域任務(wù)約束、現(xiàn)有知識庫知識和特征結(jié)構(gòu)等,如何更好的結(jié)合有效利用這些先驗(yàn)知識是提升實(shí)體鏈接算法性能的有效手段。同時(shí)設(shè)計(jì)基于端到端的深度學(xué)習(xí)模型將有助于降低實(shí)體鏈接過程中的誤差傳播效應(yīng),提高實(shí)體鏈接準(zhǔn)確度。
????隨著當(dāng)前各類型知識庫的出現(xiàn)和知識規(guī)模的快速增長,而由于通常本體匹配的計(jì)算復(fù)雜度與本體規(guī)模成正比,因此大規(guī)??缯Z言本體匹配成為知識庫融合的重大挑戰(zhàn),主要面臨的挑戰(zhàn)有:大規(guī)模本體匹配的快速并行計(jì)算問題和人機(jī)協(xié)同匹配問題。針對這個問題主要的思路有:①研究基于分布式處理技術(shù)的大規(guī)模本體匹配分布式處理算法,如研究利用MapReduce、GPU等技術(shù)的并行匹配算法,提高匹配效率;②研究利用現(xiàn)有本體匹配結(jié)果實(shí)現(xiàn)潛在本體匹配的方法,同時(shí)利用啟發(fā)式相似度計(jì)算方法提高計(jì)算效率;③通過對實(shí)體匹配進(jìn)行預(yù)剪枝,預(yù)先過濾不匹配的實(shí)體對,避免本體之間一對一的相似度計(jì)算。