創(chuàng)辦一個(gè)網(wǎng)站要多少錢營(yíng)業(yè)推廣方式
原創(chuàng) | 文 BFT機(jī)器人
在不斷努力讓人工智能更像人類的過程中,OpenAI的GPT模型不斷突破界限GPT-4現(xiàn)在能夠接受文本和圖像的提示。
生成式人工智能中的多模態(tài)表示模型根據(jù)輸入生成文本、圖像或音頻等各種輸出的能力。這些模型經(jīng)過特定數(shù)據(jù)的訓(xùn)練,學(xué)習(xí)底層模式以生成類似的新數(shù)據(jù),豐富人工智能應(yīng)用。
PART?01
多模式人工智能的最新進(jìn)展
最近,該領(lǐng)域取得了顯著的飛躍,將DALL-E 3集成到ChatGPT中,這是OpenAI文本到圖像技術(shù)的重大升級(jí)。這種混合可以實(shí)現(xiàn)更流暢的交互,ChatGPT有助于為DALL-E3制作精確的提示,將用戶的想法轉(zhuǎn)化為生動(dòng)的AI生成的藝術(shù)。因此,雖然用戶可以直接與DALL-E3交互,但將ChatGPT加入其中使得創(chuàng)建AI藝術(shù)的過程更加用戶友好。
在此處查看有關(guān)DALL-E3及其與ChatGPT集成的更多信息。此次合作不僅展示了多模態(tài)人工智能的進(jìn)步,也讓用戶的人工智能藝術(shù)創(chuàng)作變得輕而易舉。
另一方面,谷歌健康于今年6月推出了Med-PaLMM。它是一種多模式生成模型,擅長(zhǎng)編碼和解釋不同的生物醫(yī)學(xué)數(shù)據(jù)。這是通過利用開源基準(zhǔn)MultiMedBench微調(diào)語言模型PaLM-E來滿足醫(yī)學(xué)領(lǐng)域的需求而實(shí)現(xiàn)的。該基準(zhǔn)包含7種生物醫(yī)學(xué)數(shù)據(jù)類型的超過100萬個(gè)樣本以及醫(yī)學(xué)問答和放射學(xué)報(bào)告生成等14項(xiàng)任務(wù)。
各行業(yè)正在采用創(chuàng)新的多模式人工智能工具來推動(dòng)業(yè)務(wù)擴(kuò)展、簡(jiǎn)化運(yùn)營(yíng)并提高客戶參與度。語音、視頻和文本人工智能功能的進(jìn)步正在推動(dòng)多模式人工智能的增長(zhǎng)。
企業(yè)尋求能夠徹底改變業(yè)務(wù)模型和流程的多模式人工智能應(yīng)用程序,從數(shù)據(jù)工具到新興人工智能應(yīng)用程序,在生成式人工智能生態(tài)系統(tǒng)中開辟增長(zhǎng)途徑。
GPT-4 在3月份推出后,一些用戶發(fā)現(xiàn)其響應(yīng)質(zhì)量隨著時(shí)間的推移而下降,著名開發(fā)人員和OpenAI論壇也表達(dá)了這一擔(dān)憂。最初被OpenAI駁回,后來的一項(xiàng)研究證實(shí)了這個(gè)問題。報(bào)告顯示,3月至6月期間,GPT-4的準(zhǔn)確率從97.6%下降至 2.4%,這表明隨著后續(xù)模型更新,答案質(zhì)量有所下降。
ChatGPT(藍(lán)色)和人工智能(紅色)Google搜索趨勢(shì)
圍繞OpenAI的ChatGPT的炒作現(xiàn)在又回來了。它現(xiàn)在配備了視覺功能GPT-4V,允許用戶讓GPT-4分析他們給出的圖像。這是向用戶開放的最新功能。
一些人認(rèn)為,將圖像分析添加到GPT-4等大型語言模型 (LLM) 中是人工智能研究和開發(fā)的一大進(jìn)步。這種多模式法學(xué)碩士開辟了新的可能性,將語言模型超越文本,提供新的界面并解決新類型的任務(wù),為用戶創(chuàng)造新鮮的體驗(yàn)。
GPT-4V的訓(xùn)練于2022年完成,搶先體驗(yàn)于2023年3月推出。GPT-4V的視覺功能由GPT-4技術(shù)提供支持。培訓(xùn)過程保持不變。最初,該模型被訓(xùn)練為使用來自包括互聯(lián)網(wǎng)在內(nèi)的各種來源的文本和圖像的大量數(shù)據(jù)集來預(yù)測(cè)文本中的下一個(gè)單詞。
后來,它使用更多數(shù)據(jù)進(jìn)行了微調(diào),采用了一種名為“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)的方法,以生成人類喜歡的輸出。
PART?02
GPT-4 視覺力學(xué)
GPT-4卓越的視覺語言能力雖然令人印象深刻,但其底層方法仍然停留在表面。
為了探索這一假設(shè),引入了一種新的視覺語言模型MiniGPT-4 ,利用名為Vicuna的高級(jí)法學(xué)碩士。該模型使用帶有預(yù)先訓(xùn)練的視覺感知組件的視覺編碼器,通過單個(gè)投影層將編碼的視覺特征與Vicuna語言模型對(duì)齊。MiniGPT-4的架構(gòu)簡(jiǎn)單而有效,重點(diǎn)是協(xié)調(diào)視覺和語言特征以提高視覺對(duì)話能力。
MiniGPT-4的架構(gòu)包括一個(gè)帶有預(yù)訓(xùn)練ViT和Q-Former的視覺編碼器、一個(gè)線性投影層和一個(gè)高級(jí)Vicuna大語言模型。
視覺語言任務(wù)中自回歸語言模型的趨勢(shì)也在增長(zhǎng),利用跨模態(tài)遷移在語言和多模態(tài)領(lǐng)域之間共享知識(shí)。
MiniGPT-4通過將預(yù)先訓(xùn)練的視覺編碼器的視覺信息與高級(jí)LLM對(duì)齊,在視覺和語言領(lǐng)域之間架起橋梁。該模型利用Vicuna作為語言解碼器,并遵循兩階段訓(xùn)練方法。最初,它在大型圖像文本對(duì)數(shù)據(jù)集上進(jìn)行訓(xùn)練,以掌握視覺語言知識(shí),然后對(duì)較小的高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào),以增強(qiáng)生成的可靠性和可用性。
為了提高M(jìn)iniGPT-4中生成語言的自然性和可用性,研究人員開發(fā)了一個(gè)兩階段對(duì)齊過程,解決了缺乏足夠的視覺語言對(duì)齊數(shù)據(jù)集的問題。他們?yōu)榇四康牟邉澚艘粋€(gè)專門的數(shù)據(jù)集。
最初,該模型生成輸入圖像的詳細(xì)描述,通過使用與 Vicuna 語言模型格式一致的對(duì)話提示來增強(qiáng)細(xì)節(jié)。此階段旨在生成更全面的圖像描述。
初始圖像描述提示:
###Human: <Img><ImageFeature></Img>詳細(xì)描述此圖像。提供盡可能多的細(xì)節(jié)。說出你所看到的一切。###助手:
對(duì)于數(shù)據(jù)后處理,使用 ChatGPT 糾正生成的描述中的任何不一致或錯(cuò)誤,然后進(jìn)行手動(dòng)驗(yàn)證以確保高質(zhì)量。
第二階段微調(diào)提示:
###人類:<Img><ImageFeature></Img><指令>###助理:
這一探索打開了一扇了解GPT-4等多模態(tài)生成人工智能機(jī)制的窗口,揭示了如何有效地整合視覺和語言模態(tài)以生成連貫且上下文豐富的輸出。
PART?03
探索?GPT-4?愿景使用?ChatGPT?確定圖像來源
GPT-4Vision增強(qiáng)了ChatGPT分析圖像并查明其地理來源的能力。此功能將用戶交互從單純的文本轉(zhuǎn)換為文本和視覺效果的混合,成為那些通過圖像數(shù)據(jù)對(duì)不同地點(diǎn)感到好奇的人的便捷工具。
復(fù)雜的數(shù)學(xué)概念
GPT-4Vision擅長(zhǎng)通過分析圖形或手寫表達(dá)式來深入研究復(fù)雜的數(shù)學(xué)思想。對(duì)于尋求解決復(fù)雜數(shù)學(xué)問題的個(gè)人來說,此功能是一個(gè)有用的工具,使GPT-4Vision成為教育和學(xué)術(shù)領(lǐng)域的顯著幫助。
將手寫輸入轉(zhuǎn)換為 LaTeX 代碼
GPT-4V的卓越功能之一是能夠?qū)⑹謱戄斎朕D(zhuǎn)換為L(zhǎng)aTeX代碼。對(duì)于經(jīng)常需要將手寫數(shù)學(xué)表達(dá)式或其他技術(shù)信息轉(zhuǎn)換為數(shù)字格式的研究人員、學(xué)者和學(xué)生來說,此功能是一個(gè)福音。從手寫到LaTeX的轉(zhuǎn)變擴(kuò)大了文檔數(shù)字化的范圍并簡(jiǎn)化了技術(shù)寫作過程。
GPT-4V能夠?qū)⑹謱戄斎朕D(zhuǎn)換為L(zhǎng)aTeX代碼
提取表詳細(xì)信息
GPT-4V展示了從表格中提取詳細(xì)信息和解決相關(guān)查詢的技能,這是數(shù)據(jù)分析中的重要資產(chǎn)。用戶可以利用GPT-4V篩選表格、收集關(guān)鍵見解并解決數(shù)據(jù)驅(qū)動(dòng)的問題,使其成為數(shù)據(jù)分析師和其他專業(yè)人士的強(qiáng)大工具。
GPT-4V破譯表詳細(xì)信息并響應(yīng)相關(guān)查詢
理解視覺指向
GPT-4V理解視覺指向的獨(dú)特能力為用戶交互增添了新的維度。通過理解視覺線索,GPT-4V可以以更高的上下文理解來響應(yīng)查詢。
GPT-4V展示了理解視覺指向的獨(dú)特能力
使用繪圖構(gòu)建簡(jiǎn)單的模型網(wǎng)站
受此推文的啟發(fā),我嘗試為unity.ai網(wǎng)站創(chuàng)建一個(gè)模型。
基于ChatGPTVision的輸出HTML前端
GPT-4V(ision) 的局限性和缺陷
為了分析GPT-4V,OpenAI團(tuán)隊(duì)進(jìn)行了定性和定量評(píng)估。定性測(cè)試包括內(nèi)部測(cè)試和外部專家評(píng)審,而定量測(cè)試則測(cè)量各種場(chǎng)景下的模型拒絕率和準(zhǔn)確性,例如識(shí)別有害內(nèi)容、人口統(tǒng)計(jì)識(shí)別、隱私問題、地理位置、網(wǎng)絡(luò)安全和多模式越獄。
該模型仍然不完美。
該論文強(qiáng)調(diào)了GPT-4V的局限性,例如錯(cuò)誤的推理以及圖像中缺少文本或字符。它可能會(huì)產(chǎn)生幻覺或編造事實(shí)。特別是,它不適合識(shí)別圖像中的危險(xiǎn)物質(zhì),經(jīng)常會(huì)錯(cuò)誤識(shí)別它們。
在醫(yī)學(xué)成像中,GPT-4V可能會(huì)提供不一致的響應(yīng),并且缺乏對(duì)標(biāo)準(zhǔn)實(shí)踐的認(rèn)識(shí),從而導(dǎo)致潛在的誤診。
用于醫(yī)療目的的不可靠性能(來源)
它還無法掌握某些仇恨符號(hào)的細(xì)微差別,并可能根據(jù)視覺輸入生成不適當(dāng)?shù)膬?nèi)容。OpenAI建議不要使用GPT-4V進(jìn)行批判性解釋,尤其是在醫(yī)療或敏感環(huán)境中。
包起來
使用FastStableDiffusionXL創(chuàng)
https://huggingface.co/spaces/google/sdxl
GPT-4Vision (GPT-4V) 的到來帶來了一系列很酷的可能性和需要跨越的新障礙。在推出之前,我們已經(jīng)付出了大量努力來確保風(fēng)險(xiǎn)得到充分研究并減少,尤其是涉及人物照片時(shí)。看到GPT-4V的進(jìn)步令人印象深刻,在醫(yī)學(xué)和科學(xué)等棘手領(lǐng)域展現(xiàn)出巨大的前景。
現(xiàn)在,有一些重大問題擺在桌面上。例如,這些模型是否應(yīng)該能夠從照片中識(shí)別出名人?他們應(yīng)該從照片中猜測(cè)一個(gè)人的性別、種族或感受嗎?而且,是否應(yīng)該進(jìn)行特殊調(diào)整來幫助視障人士?這些問題引發(fā)了一系列關(guān)于隱私、公平以及人工智能應(yīng)該如何融入我們的生活的爭(zhēng)論,這是每個(gè)人都應(yīng)該有發(fā)言權(quán)的問題。
文章翻譯 | 春花
排版 | 春花
審核 | 橙橙
若您對(duì)該文章內(nèi)容有任何疑問,請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。