wordpress調(diào)用7天熱門文章seo優(yōu)化交流
前言
當前大模型的學習資源呈現(xiàn)爆發(fā)趨勢,各種角色的人都用自己的視角參與到大模型的討論。但是我發(fā)現(xiàn)這些學習資源都有幾個特點:只擺事實而不講道理;只講應(yīng)用可能而不提實現(xiàn)代價;只講可能性而缺乏實操經(jīng)驗分享;洞察材料比比皆是而缺乏深入分析。當然,大模型的技術(shù)體系非常龐大,全面了解非常困難。從橫向來看,涉及到語言大模型到多模態(tài)大模型;從縱向來看,又涉及算法、模型、分布式軟件、集群等專業(yè)知識。作者認識到社區(qū)缺乏一些學習資料,能夠?qū)?fù)雜問題簡單化,并且不失深度地介紹大模型的基本原理和技術(shù)。本文嘗試對大模型的機器學習原理進行統(tǒng)一,并且繞過復(fù)雜的公式化表達和推導,給讀者深入淺出的理論解釋,幫助讀者撥開大模型神秘面紗。作者認為只有深刻理解了理論原理,才能應(yīng)對千變?nèi)f化的應(yīng)用需求。本文章適合各個角色的人閱讀,包括BD、SA、PLM、研發(fā)和各層管理者。
一、大模型的外在表現(xiàn)和現(xiàn)實意義
1.1 泛化性和邊際成本問題
最近幾年,大模型甚囂塵上。特別是自ChatGPT推出之后,大街小巷都在討論大模型。那么大模型為什么吸引了如此多的注意力呢?大模型到底解決什么什么現(xiàn)實問題?人類經(jīng)歷了第一波深度學習熱潮和退潮之后,體會到第一波深度學習解決問題的嚴重問題。并且在大模型身上看到了問題徹底解決的曙光。自深度學習爆發(fā)以來,大模型進入了千行百業(yè)。從最早的監(jiān)控和泛娛樂行業(yè),到后來的工業(yè)生產(chǎn),深度學習技術(shù)都和行業(yè)緊密結(jié)合。本文作者自己經(jīng)歷了整個過程,從剛進公司部門200人到現(xiàn)在的2000人,作者經(jīng)歷了AI進入千行百業(yè)的完整過程。
然而,AI進入千行百業(yè)過程中出現(xiàn)了一個嚴重違背商業(yè)邏輯的現(xiàn)象。那就是邊際成本沒有隨著規(guī)模的增長而降低。一個合理的商業(yè)scale law是一次投入,千萬次復(fù)制,最終邊際成本趨向于零。然而,由于上一波AI浪潮中,深度學習表現(xiàn)出非常差的泛化性,導致只要切換一個場景,都需要研發(fā)人員參與定制。 比如最常見的人臉識別技術(shù),手機認證的人臉識別模型和監(jiān)控的人臉識別模型無法通用。甚至一些場景由于背光或者逆光問題,都將重新開發(fā)模型。在工業(yè)領(lǐng)域,這種現(xiàn)象就更加明顯,在工業(yè)檢測中,攝像機安裝角度的改變,或者檢測目標的改變,都需要重新定制模型。這就導致你無法做一個通用模型,然后無限推廣。因此上一波AI技術(shù)浪潮中,大多數(shù)創(chuàng)業(yè)公司盈利都非常困難,除了少數(shù)在大場景下獲得足夠市場空間的幾家公司成功上市以外,絕大多數(shù)AI創(chuàng)業(yè)公司都很難長大。如此之下,AI進入千行百業(yè)就變成一句空話了,因為并非所有的行業(yè)都有高額利潤。那些低利潤行業(yè)(農(nóng)業(yè)、低端制造業(yè))都無法享受AI的紅利。當然,小模型的泛化性差的原因有很多,比如信號的變化太多,信號模式挖掘不夠充分等等,作者在此不再分析。
大模型因為其巨大的學習量天生具備更加優(yōu)良的泛化性。這讓大家看到了解決模型泛化性,甚至達到通用人工智能(AGI)的曙光。當然,這也吸引了無數(shù)的資本。
1.2 傳統(tǒng)降低邊際成本方案
? 在講大模型是如何提升泛化性之前,我們不妨回顧一下過去幾年,我們降低邊際成本的一些方案。這些方案從一定程度上降低邊際成本,但是泛化性明顯還是不足。
1.2.1 ModelArts Pro工作流
? 在傳統(tǒng)AI模型開發(fā)過程中,模型泛化性太差,導致需要不斷進行迭代優(yōu)化。并且切換一個相似的任務(wù),也需要重新開發(fā)一次。效率非常低下。比如OCR任務(wù)需要解決非常多不同種類的表單的識別。而小模型又無法進行通用識別。因此需要反復(fù)開發(fā)模型應(yīng)對各種發(fā)票、身份證、駕駛證等等。但是我們發(fā)現(xiàn),其實每一次迭代或者相似任務(wù)的重新開發(fā),流程都差不多?;旧媳憩F(xiàn)為收集數(shù)據(jù)、標注、訓練、轉(zhuǎn)模型、部署推理引擎。
如此多重復(fù)的勞動,能否借助工具來提升呢。ModelArts Pro的設(shè)計理論就源于此。先在平臺中內(nèi)置某一些大類任務(wù)的完整訓練代碼,然后通過工作流的方式暴露部分接口,并自動化運行剩下的部分。
1.2.2 ModelArts數(shù)據(jù)回流和主動學習
? 傳統(tǒng)AI開發(fā)范式中還有一個特點,就是算法開發(fā)者大部分時間都在治理數(shù)據(jù),包括數(shù)據(jù)采集、標注和質(zhì)量治理。這部分時間占比因任務(wù)不同而不同。如遇到數(shù)據(jù)很稀缺的場景,那么這部分工作就變得非常繁重。為了應(yīng)對這個問題,ModelArts開發(fā)了自動數(shù)據(jù)回流系統(tǒng),能夠在POC階段介入用戶系統(tǒng),并快速實現(xiàn)數(shù)據(jù)的自動收集。配合主動學習策略對數(shù)據(jù)進行篩選,以獲得對模型完備性有利的數(shù)據(jù)。
1.2.3 半監(jiān)督學習
? 數(shù)據(jù)標注同樣是一項非常繁瑣的工作。如果能夠減少這部分工作量能夠極大加速開發(fā)流程。半監(jiān)督學習是非常有效的解決手段,通過極少數(shù)的標注,甚至弱標注,就能夠訓練一個媲美全監(jiān)督訓練的模型。下圖1.6是半監(jiān)督學習的三大理論方案,在此不再贅述。
1.3 大模型的智能涌現(xiàn)
以ChatGPT為代表的大模型引起用戶廣泛興趣的重要特點是智能的涌現(xiàn)。過去的模型雖然也有智能的產(chǎn)生,但是沒有表現(xiàn)出涌現(xiàn)現(xiàn)象。ChatGPT的智能涌現(xiàn)表現(xiàn)為三方面。
1.3.1 Few Shot或Zero Shot能力的涌現(xiàn)
所謂Few Shot和Zero Shot是指模型不需要學習新樣本或者學習少數(shù)幾個樣本,就能學習到新的智能。這種能力讓人產(chǎn)生一種誤解,認為AI已經(jīng)達到人的學習能力了,能夠舉一反三。但是理論上并非如此,我們在后文會慢慢揭曉迷霧。不過拋開理論,大模型的確表現(xiàn)出了這種能力,并且在一定范圍內(nèi)可以被廣泛運用。
1.3.2 思維鏈能力的涌現(xiàn)
? 思維鏈能力是大模型最為驚人的表現(xiàn)。所謂思維鏈是指大模型能夠依據(jù)思維鏈針對問題進行分析和推理。最典型表現(xiàn)是可以完成各種考試題目,編寫代碼,甚至能夠針對問題和現(xiàn)象進行因果分析。下圖1.8給出一個實際的案例。思維鏈能力給人一種錯覺,覺得AI似乎具備了人的邏輯推理能力。大模型的思維鏈能夠在廣泛應(yīng)用于很多依賴簡單推理的場景,比如故障診斷、病例診斷等。并且為了增強思維鏈,科學家也發(fā)明了增強思維鏈能力的方法。
1.3.3 創(chuàng)新能力的涌現(xiàn)
? 大模型的創(chuàng)新能力是最早被開發(fā)者廣泛使用的能力,最早用在營銷文案創(chuàng)作、概念圖創(chuàng)作等領(lǐng)域。只需要提交簡單的提示要求,大模型就能生產(chǎn)極具創(chuàng)意的文案或者圖像。下圖給出了AI生成的極具創(chuàng)意的例子。這種能力目前已經(jīng)廣泛運用于實際生產(chǎn)中了。我們?yōu)g覽的大量短視頻配音和文案,其實都是用這種技術(shù)生成的。你是否意識到了呢?
雖然我們觀測到大模型表現(xiàn)出上述的三種智能能力,但是作者認為我們不能就此下定論大模型具備和人一樣的想象能力、推理能力、創(chuàng)造能力。 我們在后文的理論分析部分會逐步揭露這三種智能的本質(zhì)來源。在第五章末尾,我們會再次回顧大模型的智能涌現(xiàn)。
1.4 大模型智能涌現(xiàn)能力的現(xiàn)實意義
雖然大模型不具備和人類一樣的智能,但是基于大模型的目前涌現(xiàn)出來的三種能力,并不妨礙現(xiàn)階段我們充分使用它們。根據(jù)上述三種能力,應(yīng)用層很容易想到的是如下三種應(yīng)用。
1.4.1 智能agent,代替人的模型
由于大模型表現(xiàn)出卓越的學習能力和生成能力,因此它完全可以用于代替部分人的模型。人類的很多工作,不需要抽象概念、復(fù)雜的推理、決策和創(chuàng)造性,完全只需要記住知識并且運用知識,比如客服、部分視覺設(shè)計師、文案寫作、健康咨詢等職業(yè)。這部分工作只需要培訓,并記住知識。運用的時候不需要復(fù)雜分析和推理決策。只需要運用知識進行回復(fù)。他們比較像早期的專家系統(tǒng)或者知識圖譜問答系統(tǒng)。這種工作是非常容易被智能agent取代的。并且由于大模型學習能力強,不容易出錯,工作表現(xiàn)可能會比人類更優(yōu)秀。
1.4.2 概念設(shè)計
? 由于大模型表現(xiàn)出一定的創(chuàng)新能力,因此很容易用于概念設(shè)計。實際上在游戲領(lǐng)域這項技術(shù)已經(jīng)被廣泛使用了。概念設(shè)計是指設(shè)計需求不十分明確的時候,反復(fù)進行探索性設(shè)計和具象化表達的階段。概念設(shè)計是生產(chǎn)環(huán)節(jié)最為重要也是最耗時的環(huán)節(jié)。大模型的創(chuàng)造性和生成效率能夠幫助設(shè)計師提升創(chuàng)意水平,并加速生產(chǎn)效率。
1.4.3 超級人機接口和互聯(lián)網(wǎng)流量入口
? 生成式大模型最直觀的表現(xiàn)是能夠進行基于自然語言的意圖理解,并能夠用自然語言給出答案。那么這會不會帶來人機接口的突破性進展呢。本文作者認為答案幾乎已經(jīng)非常明確了。并且圍繞這種新的人機交互接口,會不會改變現(xiàn)在互聯(lián)網(wǎng)的平臺入口呢?;ヂ?lián)網(wǎng)已經(jīng)從最早的門戶網(wǎng)站,演變到搜索引擎,然后發(fā)展到最近火爆的推薦系統(tǒng)。大模型是否能夠帶來新的互聯(lián)網(wǎng)信息入口的改變呢?如果能做到,那將是互聯(lián)網(wǎng)產(chǎn)業(yè)的又一次洗牌。目前幾乎所有的傳統(tǒng)互聯(lián)網(wǎng)大廠都在爭奪這個入口,也不乏明星創(chuàng)業(yè)公司參與其中。這些風險投資看到的是這種不確定性一旦確定,誰把握住入口,誰就把握住生態(tài)。
最后如果您也對AI大模型感興趣想學習卻苦于沒有方向👀
小編給自己收藏整理好的學習資料分享出來給大家💖
👉AI大模型學習路線匯總👈
大模型學習路線圖,整體分為7個大的階段:(全套教程文末領(lǐng)取哈)
第一階段: 從大模型系統(tǒng)設(shè)計入手,講解大模型的主要方法;
第二階段: 在通過大模型提示詞工程從Prompts角度入手更好發(fā)揮模型的作用;
第三階段: 大模型平臺應(yīng)用開發(fā)借助阿里云PAI平臺構(gòu)建電商領(lǐng)域虛擬試衣系統(tǒng);
第四階段: 大模型知識庫應(yīng)用開發(fā)以LangChain框架為例,構(gòu)建物流行業(yè)咨詢智能問答系統(tǒng);
第五階段: 大模型微調(diào)開發(fā)借助以大健康、新零售、新媒體領(lǐng)域構(gòu)建適合當前領(lǐng)域大模型;
第六階段: 以SD多模態(tài)大模型為主,搭建了文生圖小程序案例;
第七階段: 以大模型平臺應(yīng)用與開發(fā)為主,通過星火大模型,文心大模型等成熟大模型構(gòu)建大模型行業(yè)應(yīng)用。
👉如何學習AI大模型?👈
作為一名熱心腸的互聯(lián)網(wǎng)老兵,我決定把寶貴的AI知識分享給大家。 至于能學習到多少就看你的學習毅力和能力了 。我已將重要的AI大模型資料包括AI大模型入門學習思維導圖、精品AI大模型學習書籍手冊、視頻教程、實戰(zhàn)學習等錄播視頻免費分享出來。
這份完整版的大模型 AI 學習資料已經(jīng)上傳CSDN,朋友們?nèi)绻枰梢晕⑿艗呙柘路紺SDN官方認證二維碼免費領(lǐng)取【保證100%免費
】
一、全套AGI大模型學習路線
AI大模型時代的學習之旅:從基礎(chǔ)到前沿,掌握人工智能的核心技能!
二、640套AI大模型報告合集
這套包含640份報告的合集,涵蓋了AI大模型的理論研究、技術(shù)實現(xiàn)、行業(yè)應(yīng)用等多個方面。無論您是科研人員、工程師,還是對AI大模型感興趣的愛好者,這套報告合集都將為您提供寶貴的信息和啟示。
三、AI大模型經(jīng)典PDF籍
隨著人工智能技術(shù)的飛速發(fā)展,AI大模型已經(jīng)成為了當今科技領(lǐng)域的一大熱點。這些大型預(yù)訓練模型,如GPT-3、BERT、XLNet等,以其強大的語言理解和生成能力,正在改變我們對人工智能的認識。 那以下這些PDF籍就是非常不錯的學習資源。
四、AI大模型商業(yè)化落地方案
作為普通人,入局大模型時代需要持續(xù)學習和實踐,不斷提高自己的技能和認知水平,同時也需要有責任感和倫理意識,為人工智能的健康發(fā)展貢獻力量。