中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

全面的網(wǎng)站建設(shè)免費sem工具

全面的網(wǎng)站建設(shè),免費sem工具,賬號交易網(wǎng)站數(shù)據(jù)庫應(yīng)該怎么做,在沈陽做一個展示網(wǎng)站多少錢Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings Abstract 該論文提出了一種無監(jiān)督的方法,使用每個文檔中相關(guān)單詞之間的文本相似度以及每個類別的關(guān)鍵字字典將文檔分為幾類。所提出的方法通過人類專業(yè)知識和語言模型豐富了類別…

Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings

Abstract

該論文提出了一種無監(jiān)督的方法,使用每個文檔中相關(guān)單詞之間的文本相似度以及每個類別的關(guān)鍵字字典將文檔分為幾類。所提出的方法通過人類專業(yè)知識和語言模型豐富了類別標簽,為低成本文本分類提供了一種實用的替代方案。

introduction

本文討論了文檔分類,這是機器學(xué)習(xí)中的一項標準任務(wù),包括電子郵件過濾和新聞文章聚類等應(yīng)用程序。傳統(tǒng)的文本分類過程依賴于監(jiān)督或半監(jiān)督方法,這些方法需要標注的數(shù)據(jù)才能達到足夠的準確性。但是,擬議的方法旨在使用每份文檔中相關(guān)單詞之間的文本相似性以及通過人類專業(yè)知識和語言模型豐富每個類別的關(guān)鍵字字典進行無監(jiān)督分類。當(dāng)需要低成本文本分類時,這種方法提供了另一種解決方案,其在運營風(fēng)險事件分類中的應(yīng)用示例就說明了這一點,這些應(yīng)用來自銀行部門管理定期與監(jiān)管機構(gòu)共享的描述各種類型的風(fēng)險(包括內(nèi)部/外部欺詐、網(wǎng)絡(luò)安全問題等)的歷史數(shù)據(jù)集。

contributions

本文的主要貢獻是提出了一種無監(jiān)督的方法,使用文本相似度和每個類別的關(guān)鍵字字典將文檔分為幾類。該方法通過人類專業(yè)知識和語言模型豐富了類別標簽,為低成本文本分類提供了一種實用的替代方案。此外,對5個標準語料庫的實驗表明,與僅依賴人類專業(yè)知識相比,所提出的方法提高了F1分數(shù),也可以與簡單的監(jiān)督方法相提并論。最后,運營風(fēng)險事件分類中的一個應(yīng)用示例說明了這種方法在其最初的靈感領(lǐng)域之外如何在實踐中使用。

Literature survey

本文的文獻調(diào)查側(cè)重于為克服標準文本分類中對大量帶注釋數(shù)據(jù)的要求而提出的技術(shù)。大多數(shù)方法包括半監(jiān)督方法,這些方法利用一小部分帶標簽的文檔為其余文檔導(dǎo)出標簽,例如Nigam等人的期望最大化(EM)算法(2000)。重復(fù)此過程直到收斂,并且已成功生成無需完全手動注釋的帶標簽示例。

Limitations

本文的局限性包括:

  • 所提出的方法依賴于每個類別的關(guān)鍵字字典,該字典可能不夠全面或準確,無法涵蓋某些領(lǐng)域中文檔的全部范圍和復(fù)雜性。
  • 盡管與僅依靠人類專業(yè)知識相比,實驗顯示出令人鼓舞的結(jié)果,但其性能仍低于使用帶有大型標簽數(shù)據(jù)集的監(jiān)督方法所達到的效果。因此,當(dāng)需要高精度分類時,它可能不適合。
  • 盡管超出其原始靈感領(lǐng)域的應(yīng)用示例說明了這種方法如何在實踐中更普遍地在不同行業(yè)中發(fā)揮作用,但用例在被廣泛采用之前需要進一步驗證。

Practical implications

本文的實際含義是,它提出了一種無監(jiān)督的方法,使用文本相似度對文檔進行分類,并為每個類別提供一個通過人類專業(yè)知識和語言模型豐富而豐富的關(guān)鍵字詞典。當(dāng)需要低成本文本分類時,這種方法提供了一種具有成本效益的替代方案,如其最初靈感來自的銀行部門管理領(lǐng)域之外的運營風(fēng)險事件分類中的應(yīng)用示例所示。所提出的方法可用于需要以合理的精度進行文檔分類的不同行業(yè),無需大型帶標簽的數(shù)據(jù)集或大量的手動注釋工作。

Methods

本文中使用的方法包括:

  • 基于每個文檔中相關(guān)單詞之間的文本相似度以及每個類別的關(guān)鍵字字典的無監(jiān)督文本分類。
  • 通過人類專業(yè)知識和語言模型(包括通用和特定領(lǐng)域)豐富標簽詞典。
  • 在文檔方面執(zhí)行標準清理步驟,以在處理之前刪除不相關(guān)的信息。
  • 在類別標簽方面實施了一系列豐富步驟,以便迭代地擴展標簽詞典。

dataset

該論文使用了五個標準文本分類語料庫進行評估。論文簡要描述了這些數(shù)據(jù)集,包括20NewsGroup2、R8、R52、Ohsumed和Reuters-21578。作者匯總了每個數(shù)據(jù)集的訓(xùn)練集和測試集,將其用作整個語料庫,因為他們采用了無監(jiān)督方法,不需要在訓(xùn)練測試拆分之間進行標記數(shù)據(jù)分離。

Results

論文的結(jié)果表明,擬議的使用文本相似度對文檔進行分類的無監(jiān)督方法以及通過人類專業(yè)知識和語言模型豐富的每個類別的關(guān)鍵字字典的表現(xiàn)優(yōu)于簡單的無監(jiān)督基線,從而使所有語料庫的F1分數(shù)翻了一番。對五個標準文本分類數(shù)據(jù)集的實驗表明,除了Yahoo-Answers數(shù)據(jù)集的性能相似的Yahoo-Answers數(shù)據(jù)集外,僅使用特定領(lǐng)域的嵌入在大多數(shù)指標上的性能要優(yōu)于單獨使用通用嵌入的性能。僅如一些實驗結(jié)果所示,與嵌入相比,組合豐富,可以適度提高性能??傮w而言,當(dāng)需要低成本文本分類時,該方法可以提供替代方案,無需大型帶標簽的數(shù)據(jù)集或大量的手動注釋工作,同時與某些條件下的監(jiān)督方法相比,可以實現(xiàn)合理的準確性。

Conclusions

該論文的結(jié)論是,與某些條件下的監(jiān)督方法相比,使用文本相似度對文檔進行分類的無監(jiān)督方法以及通過人類專業(yè)知識和語言模型豐富的每個類別的關(guān)鍵字字典可以提供合理的準確性。當(dāng)需要低成本文本分類時,所提出的方法提供了一種經(jīng)濟實惠的替代方案,無需大型帶標簽的數(shù)據(jù)集或大量的手動注釋工作,如其在最初啟發(fā)的銀行部門管理領(lǐng)域之外的運營風(fēng)險事件分類中的應(yīng)用示例所示。進一步的研究可以探討諸如ELMO(Peters等人,2018年)和BERT(Devlin等人,2018年)之類的單詞嵌入的最新進展能否為這種方法帶來更多好處。

Future works

該論文提出了幾項可以探索的未來作品,包括:

-研究如何使用諸如ELMO和BERT之類的單詞嵌入方面的最新進展,以進一步提高性能。
-探索豐富人類專業(yè)知識和語言模型以外的類別標簽的不同方法,例如使用外部知識庫或本體論。
-針對復(fù)雜程度和領(lǐng)域特異性不同的其他文本分類任務(wù)評估所提出的方法。
-將這種無監(jiān)督方法與更復(fù)雜的監(jiān)督方法(例如標記數(shù)據(jù)可用時的深度學(xué)習(xí)架構(gòu))進行比較。

這些潛在的研究途徑可以幫助擴展本文提出的發(fā)現(xiàn),同時還可以為如何在不犧牲準確性的情況下最好地進行低成本文本分類提供新的見解。

http://m.risenshineclean.com/news/64522.html

相關(guān)文章:

  • 慈善系統(tǒng)網(wǎng)站建設(shè)需求網(wǎng)站建設(shè)教程
  • 快速學(xué)制作網(wǎng)站百度小說排行榜第一名
  • wordpress 導(dǎo)航站模板營銷型網(wǎng)站建設(shè)論文
  • 布偶貓網(wǎng)頁設(shè)計教程百度seo入駐
  • 注冊網(wǎng)站頁面跳轉(zhuǎn)錯誤惠州seo排名優(yōu)化
  • 手機網(wǎng)站Com全國十大婚戀網(wǎng)站排名
  • 怎樣建立手機網(wǎng)站廣告營銷策略有哪些
  • 有自己域名如何做網(wǎng)站色盲測試圖第六版及答案大全
  • 微信上瀏覽自己做的網(wǎng)站免費下載app并安裝
  • 做阿里還是網(wǎng)站濰坊百度關(guān)鍵詞優(yōu)化
  • 微商網(wǎng)站制作武漢關(guān)鍵詞排名推廣
  • 哪些網(wǎng)站可以找到做海報的素材鄭州seo網(wǎng)站排名
  • xxx網(wǎng)站策劃書西安網(wǎng)頁設(shè)計
  • 莫名接到網(wǎng)站建設(shè)電話推廣引流工具
  • 溫嶺做網(wǎng)站新冠疫情最新消息今天
  • 營銷型網(wǎng)站建設(shè)實戰(zhàn)》杭州優(yōu)化公司哪家好
  • 中國建設(shè)銀行的業(yè)務(wù)范圍深圳百度網(wǎng)站排名優(yōu)化
  • 日照疫情最新消息今天封城了廣州網(wǎng)絡(luò)seo公司
  • 個人網(wǎng)站備案 淘寶客天氣預(yù)報最新天氣預(yù)報
  • 心理咨詢網(wǎng)站開發(fā)長春網(wǎng)站建設(shè)制作
  • 坪山做網(wǎng)站的公司北京全網(wǎng)營銷推廣
  • 網(wǎng)站建設(shè)分幾模塊黃頁推廣引流網(wǎng)站
  • 哪些網(wǎng)站可以做調(diào)查賺錢優(yōu)化推廣網(wǎng)站seo
  • 網(wǎng)站建設(shè)公司有哪些方面微商怎么引流被加精準粉
  • 怎么注冊英文網(wǎng)站域名互動營銷的案例及分析
  • 免費建立個人文章網(wǎng)站百度游戲風(fēng)云榜
  • c2c商城網(wǎng)站建設(shè)費用b站推廣入口2023年
  • 句容網(wǎng)站建設(shè)制作萬網(wǎng)查詢
  • 網(wǎng)站的鏈接結(jié)構(gòu)怎么做營銷策劃書模板范文
  • 典型的電子商務(wù)網(wǎng)站有哪些太原seo哪家好