手機(jī)兼職在家掙錢(qián)的方法菏澤資深seo報(bào)價(jià)
今天為大家介紹的是來(lái)自Mario Krenn團(tuán)隊(duì)的一篇論文。一個(gè)能夠通過(guò)從科學(xué)文獻(xiàn)中獲取洞見(jiàn)來(lái)建議新的個(gè)性化研究方向和想法的工具,可以加速科學(xué)的進(jìn)步。一個(gè)可能受益于這種工具的領(lǐng)域是人工智能(AI)研究,近年來(lái)科學(xué)出版物的數(shù)量呈指數(shù)級(jí)增長(zhǎng),這使得人類研究者難以跟上進(jìn)展。在這里,作者使用AI技術(shù)來(lái)預(yù)測(cè)AI自身的未來(lái)研究方向。
科學(xué)文獻(xiàn)的語(yǔ)料庫(kù)以越來(lái)越快的速度增長(zhǎng)。特別是在人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域,每個(gè)月的論文數(shù)量都在以大約23個(gè)月翻一番的速度指數(shù)級(jí)增長(zhǎng)(見(jiàn)圖1)。同時(shí),AI社區(qū)正在吸納來(lái)自數(shù)學(xué)、統(tǒng)計(jì)學(xué)和物理學(xué)等多個(gè)學(xué)科的多樣化思想,這使得組織不同的想法和發(fā)現(xiàn)新的科學(xué)聯(lián)系變得更具挑戰(zhàn)性。作者設(shè)想一個(gè)計(jì)算機(jī)程序可以自動(dòng)閱讀、理解并對(duì)AI文獻(xiàn)采取行動(dòng)。它可以預(yù)測(cè)并提出超越個(gè)人知識(shí)和跨領(lǐng)域界限的有意義研究想法。如果成功,它可以極大地提高AI研究人員的生產(chǎn)力,開(kāi)辟新的研究途徑,并幫助推動(dòng)該領(lǐng)域的進(jìn)步。在這項(xiàng)工作中,作者著手實(shí)現(xiàn)通過(guò)數(shù)據(jù)驅(qū)動(dòng)方法預(yù)測(cè)未來(lái)研究方向。由于新的研究想法往往來(lái)自于看似不相關(guān)概念的連接,作者將AI文獻(xiàn)的演化模擬為一個(gè)時(shí)間網(wǎng)絡(luò)。

語(yǔ)義網(wǎng)絡(luò)
語(yǔ)義網(wǎng)絡(luò)的目標(biāo)是從科學(xué)文獻(xiàn)中提取知識(shí),隨后可以由計(jì)算機(jī)算法處理。乍看之下,這個(gè)流程的第一步可能是使用大型語(yǔ)言模型對(duì)每篇文章進(jìn)行處理,自動(dòng)提取概念及其關(guān)系。然而,這些方法在推理能力上仍然存在困難;因此,目前還不清楚這些模型如何用于識(shí)別和建議新的想法和概念組合。研究人員開(kāi)創(chuàng)了一種替代方法,在生物化學(xué)中從科學(xué)論文中共現(xiàn)的概念創(chuàng)建語(yǔ)義網(wǎng)絡(luò)。在那里,節(jié)點(diǎn)代表科學(xué)概念,特別是生物分子,并且當(dāng)論文在其標(biāo)題或摘要中提及兩者時(shí)就會(huì)被鏈接。這個(gè)不斷演化的網(wǎng)絡(luò)捕捉了該領(lǐng)域的歷史,并使用超級(jí)計(jì)算機(jī)模擬,提供了對(duì)科學(xué)家集體行為的洞察,并建議了更有效的研究策略。盡管從概念共現(xiàn)中創(chuàng)建語(yǔ)義網(wǎng)絡(luò)只從每篇論文中提取了少量知識(shí),但當(dāng)應(yīng)用于大型數(shù)據(jù)集時(shí),它捕捉到了有意義且可操作的內(nèi)容。PaperRobot通過(guò)從大型醫(yī)學(xué)知識(shí)圖中預(yù)測(cè)新鏈接,并以人類語(yǔ)言形式制定新想法作為論文草案,擴(kuò)展了這一方法。這種方法被應(yīng)用并擴(kuò)展到量子物理學(xué),通過(guò)構(gòu)建一個(gè)包含6,000多個(gè)概念的語(yǔ)義網(wǎng)絡(luò)。研究人員將新研究趨勢(shì)和聯(lián)系的預(yù)測(cè)形式化為一個(gè)ML任務(wù),目標(biāo)是識(shí)別文獻(xiàn)中尚未共同討論但可能在未來(lái)被調(diào)查的概念對(duì)。這個(gè)預(yù)測(cè)任務(wù)是為個(gè)性化建議新研究想法的一個(gè)組成部分。
作者將未來(lái)研究主題的預(yù)測(cè)形式化為人工智能領(lǐng)域中一個(gè)指數(shù)級(jí)增長(zhǎng)的語(yǔ)義網(wǎng)絡(luò)中的鏈接預(yù)測(cè)任務(wù)。目標(biāo)是預(yù)測(cè)未來(lái)哪些尚未連接的節(jié)點(diǎn),代表尚未共同研究的科學(xué)概念,將會(huì)被連接起來(lái)。鏈接預(yù)測(cè)在計(jì)算機(jī)科學(xué)中是一個(gè)常見(jiàn)問(wèn)題,通過(guò)經(jīng)典的度量和特征以及機(jī)器學(xué)習(xí)技術(shù)來(lái)解決。在語(yǔ)義網(wǎng)絡(luò)中對(duì)研究方向進(jìn)行預(yù)測(cè)的目標(biāo)是向研究者提供新的想法。在某種程度上,作者希望建立一個(gè)在科學(xué)上有創(chuàng)造力的人工繆斯。除此之外,還可以偏向或約束模型,以提供與個(gè)別科學(xué)家的研究興趣相關(guān)的主題建議,或者為兩位科學(xué)家的跨學(xué)科合作提供合作主題。
數(shù)據(jù)的來(lái)源




作者使用1992年到2020年在arXiv上發(fā)布的論文,在類別cs.AI、cs.LG、cs.NE和stat.ML中,創(chuàng)建了一個(gè)動(dòng)態(tài)的語(yǔ)義網(wǎng)絡(luò)。64,719個(gè)節(jié)點(diǎn)代表從143,000篇論文標(biāo)題和摘要中提取的AI概念,這些概念是通過(guò)快速自動(dòng)關(guān)鍵詞提取(RAKE)獲取的,并通過(guò)自然語(yǔ)言處理(NLP)技術(shù)和自定義方法進(jìn)行了規(guī)范化。作者的目標(biāo)是構(gòu)建一個(gè)可擴(kuò)展的方法,適用于任何科學(xué)領(lǐng)域。概念形成語(yǔ)義網(wǎng)絡(luò)的節(jié)點(diǎn),當(dāng)概念在論文標(biāo)題或摘要中共現(xiàn)時(shí)就會(huì)畫(huà)出相互連接的邊。邊有基于論文發(fā)表日期的時(shí)間戳屬性,常見(jiàn)的是概念之間有多個(gè)時(shí)間戳的邊。網(wǎng)絡(luò)是加權(quán)的,邊的權(quán)重代表連接兩個(gè)概念的論文數(shù)量??偟膩?lái)說(shuō),這創(chuàng)建了一個(gè)隨時(shí)間演化的語(yǔ)義網(wǎng)絡(luò),如圖2所示。發(fā)布的語(yǔ)義網(wǎng)絡(luò)有64,719個(gè)節(jié)點(diǎn)和17,892,352個(gè)獨(dú)特的無(wú)向邊,平均節(jié)點(diǎn)度為553。許多中心節(jié)點(diǎn)的度遠(yuǎn)遠(yuǎn)超過(guò)這個(gè)平均值,如圖3所示。觀察到隨時(shí)間網(wǎng)絡(luò)連通性的變化。盡管度分布仍然是重尾的,但由于流行趨勢(shì)的影響,尾部?jī)?nèi)的節(jié)點(diǎn)順序發(fā)生了變化。最具連接性的節(jié)點(diǎn)以及它們成為這樣的年份包括決策樹(shù)(1994年)、機(jī)器學(xué)習(xí)(1996年)、邏輯程序(2000年)、神經(jīng)網(wǎng)絡(luò)(2005年)、實(shí)驗(yàn)結(jié)果(2011年)、機(jī)器學(xué)習(xí)(2013年,第二次)和神經(jīng)網(wǎng)絡(luò)(2015年)。圖4中的連通分量分析顯示,網(wǎng)絡(luò)隨著時(shí)間的推移變得更加連通,最大的研究群體擴(kuò)大了,而網(wǎng)絡(luò)整體的連通分量的數(shù)量減少了。語(yǔ)義網(wǎng)絡(luò)揭示了隨時(shí)間的增加中心化,百分比更小的節(jié)點(diǎn)(概念)貢獻(xiàn)了更大的邊緣(概念組合)部分,如圖5顯示。這可能是由于AI社區(qū)對(duì)少數(shù)主導(dǎo)方法越來(lái)越關(guān)注,或者對(duì)術(shù)語(yǔ)使用的更一致。
實(shí)驗(yàn)部分

作者展示了預(yù)測(cè)語(yǔ)義網(wǎng)絡(luò)中新鏈接(基于2020年前的數(shù)據(jù)訓(xùn)練,預(yù)測(cè)2021年的研究)的各種方法,范圍從純統(tǒng)計(jì)學(xué)方法到帶有手工制作特征(NF)的神經(jīng)網(wǎng)絡(luò),再到不含NF的機(jī)器學(xué)習(xí)(ML)模型。結(jié)果顯示在圖6中,使用NF作為ML模型輸入的方法獲得了最高的AUC分?jǐn)?shù)。沒(méi)有ML的純網(wǎng)絡(luò)特征也具有競(jìng)爭(zhēng)力,而純ML方法尚未勝過(guò)那些帶有NF的方法。預(yù)測(cè)至少產(chǎn)生三次的網(wǎng)絡(luò)鏈接可以達(dá)到AUC > 0.995。
結(jié)論
作者的方法代表著向開(kāi)發(fā)一個(gè)可以幫助科學(xué)家發(fā)現(xiàn)新的探索途徑的工具邁出的關(guān)鍵一步。作者相信,文章中概述的想法和擴(kuò)展為實(shí)現(xiàn)實(shí)用、個(gè)性化、跨學(xué)科的基于AI的新發(fā)現(xiàn)建議鋪平了道路。并且堅(jiān)信,這樣的工具具有成為影響深遠(yuǎn)的催化劑的潛力,它將改變科學(xué)家們?cè)诟髯灶I(lǐng)域內(nèi)提出研究問(wèn)題和協(xié)作的方式。
參考資料
Krenn, M., Buffoni, L., Coutinho, B. et al. Forecasting the future of artificial intelligence with machine learning-based link prediction in an exponentially growing knowledge network. Nat Mach Intell (2023).?
https://doi.org/10.1038/s42256-023-00735-0