中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

日照手機(jī)網(wǎng)站建設(shè)2022最好的百度seo

日照手機(jī)網(wǎng)站建設(shè),2022最好的百度seo,263企業(yè)郵箱下載客戶端,站長工具怎么用我自己的原文哦~ https://blog.51cto.com/whaosoft/11638131 #端到端任務(wù) 說起端到端,每個從業(yè)者可能都覺得會是下一代自動駕駛量產(chǎn)方案繞不開的點!特斯拉率先吹響了方案更新的號角,無論是完全端到端,還是專注于planner的模型&a…

?我自己的原文哦~?https://blog.51cto.com/whaosoft/11638131

#端到端任務(wù)

說起端到端,每個從業(yè)者可能都覺得會是下一代自動駕駛量產(chǎn)方案繞不開的點!特斯拉率先吹響了方案更新的號角,無論是完全端到端,還是專注于planner的模型,各家公司基本都投入較大人力去研發(fā),小鵬、蔚來、理想、華為都對外展示了其端到端自動駕駛方案,效果著實不錯,非常有研究價值。?

為什么需要端到端?

首先我們聊一下當(dāng)前的主流自動駕駛方案,主要核心部分包括:感知模塊、預(yù)測模塊、規(guī)控模塊。每個模塊相對獨立,感知模塊給預(yù)測模塊提供動靜態(tài)障礙物信息;預(yù)測模塊為規(guī)控模塊提供規(guī)劃的參考,規(guī)劃再轉(zhuǎn)換為控制指令。從傳感器端到控制端,需要多個功能支持,這就不可避免導(dǎo)致了累積誤差,一旦碰到問題,需要整個pipeline做分析。而且每個模塊的優(yōu)化,并不能保證整個系統(tǒng)達(dá)成最優(yōu)解。

圖片

這個時候,就希望有一種模型能夠完成感知信息的無損傳遞,即從傳感器端到輸出控制策略端,這也是端到端自動駕駛提出的原因。傳統(tǒng)定義上感知和規(guī)劃模塊的對接一般是通過白名單(比如機(jī)動車、行人、甚至occ輸出的非通用幾何障礙物)的檢測與預(yù)測來完成,是人為定義的規(guī)則和抽象。隨著產(chǎn)品的迭代,每一次都需要添加各類case,設(shè)計各種博弈的策略,從模型訓(xùn)練到工程部署再到邏輯設(shè)計,時間和人力成本高昂。

圖片

而且這種方式無法羅列所有情況,那么是否可以通過對整個場景的學(xué)習(xí)抽象,無損的將所有信息傳遞給PnC部分?這就是我們期望的端到端。端到端核心是優(yōu)化最終目標(biāo)且全局可導(dǎo),作為一個完整的優(yōu)化任務(wù)來看,直接求最優(yōu)解,而不是先求感知再求規(guī)控的最優(yōu)解。?

端到端效果怎么樣?

今年各大自動駕駛公司都在預(yù)研和落地相關(guān)端到端方案,小鵬、蔚來、華為、理想也都對外展示了其端到端方案。由于端到端模型的優(yōu)勢明顯,各大自動駕駛公司都在拼命布局?jǐn)埲?#xff0c;對應(yīng)崗位薪資水漲船高,某想甚至開出了七位數(shù)給到該崗位。

那么各家的端到端自動駕駛效果怎么樣呢?先來看看國外的特斯拉:

再來看看國內(nèi)的UniAD效果:

不得不說,端到端是一個更簡約的方法,更具有全場景的優(yōu)化能力。?

端到端有哪些技術(shù)棧?

行業(yè)里面的端到端主要分為完全端到端方案、專注于planner的端到端方案(包括某鵬的XPlanner)。顧名思義,完全端到端是從傳感器直接到規(guī)控;而專注于planner的端到端以感知模塊的輸出作為先驗,替換原來以規(guī)則作為主要形式的PnC模塊。

圖片

從傳感器到控制策略的(如果把條件再放松下也可以到軌跡輸出)完全端到端方案更為簡約,但同樣面臨一個問題,可解釋性差。UniAD用分階段監(jiān)督的方法逐步提高了可解釋性,但訓(xùn)練仍然是個難題。在足夠體量和質(zhì)量的數(shù)據(jù)群下,效果能夠得到保證,泛化性能也不錯。

圖片

而專注于planner的端到端方案,如果深究的話,只能算狹義上的端到端,但更貼合當(dāng)下的量產(chǎn)方案和任務(wù),而且可解釋性也較高,是目前主機(jī)廠和自動駕駛公司優(yōu)先推行和落地的。

如果從信息輸入的角度上來看,又可以分為純視覺方案(UAD、UniAD這類)和多模態(tài)方案(FusionAD這類),傳感器成本不斷在下降,多模態(tài)方案也一直是行業(yè)里面都在關(guān)注的點。

#國內(nèi)智駕感知技術(shù)的7位“掌舵人

今年「端到端」席卷自動駕駛行業(yè)以來,各個智駕主流團(tuán)隊的人員配置均發(fā)生了巨大的改變,其中規(guī)控和感知團(tuán)隊的技術(shù)骨干動蕩尤為劇烈。

感知在自動駕駛中一直是很重要的一環(huán),它是自動駕駛汽車能否成功實現(xiàn)自主導(dǎo)航和操作的關(guān)鍵,決定了自動駕駛汽車“看得清多少路”,以及是否能適應(yīng)復(fù)雜多變的交通環(huán)境。「端到端」概念的”崛起“,自動駕駛感知技術(shù)也從傳統(tǒng)的“模塊化”架構(gòu)向“統(tǒng)一化“架構(gòu)轉(zhuǎn)型,而轉(zhuǎn)型期間自然會遇到重重障礙,這時團(tuán)隊的掌舵人必須看清目標(biāo),帶領(lǐng)團(tuán)隊在風(fēng)潮中安全前行。

今天特地梳理了國內(nèi)自動駕駛行業(yè)感知領(lǐng)域的7位大佬,他們深受自動駕駛行業(yè)工程師們敬佩與膜拜,為中國自動駕駛感知的發(fā)展進(jìn)步做出了重要貢獻(xiàn)。

(如在閱讀過程中您發(fā)現(xiàn)了疏漏,歡迎向我們指正建議)

劉蘭個川2008年本科畢業(yè)于北京大學(xué)物理學(xué)院物理專業(yè)。2014年畢業(yè)于美國密歇根大學(xué)安娜堡分校(University of Michigan, Ann Arbor),獲得物理學(xué)博士學(xué)位。

博士畢業(yè)后,劉蘭個川在硅谷和圣地亞哥的多家科技公司任職,利用人工智能進(jìn)行工業(yè)探傷和醫(yī)學(xué)圖像處理:2015年2月~2017年4月,他在PerkinElmer擔(dān)任高級探測器物理學(xué)家;2017年5月~10月,劉蘭個川在ZEISS Group擔(dān)任軟件開發(fā)工程師,負(fù)責(zé)機(jī)器學(xué)習(xí)解決方案的工作。這一階段的工作經(jīng)歷使他對人工智能領(lǐng)域有了初步的了解和實踐。

2017年10月,劉蘭個川加入由高通員工創(chuàng)立的AI初創(chuàng)公司12 sigma(圖瑪深維),逐漸成為一名深度學(xué)習(xí)專家。在12 sigma工作的一年半以來,他提升了自己的深度學(xué)習(xí)和技術(shù)管理經(jīng)驗,為后續(xù)的職業(yè)生涯打下了堅實的基礎(chǔ)。

2019年3月,劉蘭個川離開12 sigma加入小鵬汽車。最初任職自動駕駛算法總監(jiān),負(fù)責(zé)小鵬汽車智能輔助系統(tǒng)感知功能的研發(fā),并協(xié)助搭建小鵬在美國圣地亞哥感知團(tuán)隊;后來全面負(fù)責(zé)小鵬汽車自動駕駛Xpilot系統(tǒng)感知功能的研發(fā),成為小鵬汽車自動駕駛團(tuán)隊的核心成員。劉蘭個川擔(dān)任小鵬自動駕駛AI團(tuán)隊負(fù)責(zé)人期間,帶領(lǐng)團(tuán)隊從零到一搭建了自動駕駛的BEV感知大模型XNet,并參與了中國最大的自動駕駛智算中心“扶搖”的搭建和維護(hù)。曾任小鵬自動駕駛平臺北京負(fù)責(zé)人、XPILOT總監(jiān)。2023年7月末,劉蘭個川離開了小鵬汽車。

離開小鵬后,劉蘭個川隨即加入Anker,并出任VP,負(fù)責(zé)具身智能方面(機(jī)器人+大模型)的研發(fā)工作。2024年1月,劉蘭個川離開Anker,兩個月后加入了Nvidia,擔(dān)任感知技術(shù)板塊的總負(fù)責(zé)人。

彭超2014年本科畢業(yè)于武漢大學(xué)空間信息與數(shù)字技術(shù)專業(yè),2017年碩士畢業(yè)于清華大學(xué)軟件工程大數(shù)據(jù)專業(yè)。

2016年4月~2018年11月,彭超在Megvii (Face++)度過了兩年半之久的實習(xí)和第一份正式工作的生涯。在Megvii實習(xí)和工作期間,他主要負(fù)責(zé)通用物體分割、通用物體檢測和圖像分類等三個領(lǐng)域的研究和應(yīng)用落地工作,取得了世界頂尖的成績。

2018年12月,彭超加入Momenta,擔(dān)任高級視覺算法工程師,負(fù)責(zé)無人駕駛感知算法基礎(chǔ)研發(fā)工作,在此期間積累了豐富的自動駕駛技術(shù)經(jīng)驗。

離開Momenta后彭超加入了蔚來汽車,2024年6月,隨著蔚來智能駕駛研發(fā)部的調(diào)整,彭超被任命為合并后的大模型團(tuán)隊的負(fù)責(zé)人。他負(fù)責(zé)帶領(lǐng)團(tuán)隊在深度神經(jīng)網(wǎng)絡(luò)和智能駕駛技術(shù)方面進(jìn)行研究與應(yīng)用,推動蔚來智能駕駛技術(shù)的發(fā)展。

同時,彭超還是CVPR、ICCV、ECCV和AAAI等頂會的審稿人,他在多家頂會頂刊都發(fā)表過優(yōu)秀paper,諸如《Objects365: A Large-Scale,High-QualityDatasetfor ObjectDetection》、《An End-to-End Network for Panoptic Segmentation》等。

陳曉智2012年本科畢業(yè)于清華大學(xué)電子工程系,2017年獲清華大學(xué)電子工程博士學(xué)位。

正式工作前,陳曉智曾在微軟和百度有過兩段實習(xí)經(jīng)歷,分別于2012年9月~2013年年5月在微軟任職軟件開發(fā)實習(xí)生,2016年7月~2017年5月在百度自動駕駛感知團(tuán)隊任實習(xí)生。

2017年7月,陳曉智加入大疆,時任高級機(jī)器學(xué)習(xí)工程師。2020年1月,他被任命為機(jī)器學(xué)習(xí)研發(fā)經(jīng)理,并在2023年大疆車載“單飛”為卓馭科技后擔(dān)任卓馭科技感知團(tuán)隊的總負(fù)責(zé)人。

陳曉智親自帶隊的感知部門,致力于智能駕駛系統(tǒng)的感知技術(shù)預(yù)研和產(chǎn)品落地工作。該部門在算法崗位方向有著豐富的需求,包括但不限于單目/雙目深度估計、光流估計、SLAM、三維重建、Nerf、模型輕量化設(shè)計、分布式訓(xùn)練、物體檢測、語義分割、多傳感器融合、圖像增強(qiáng)、ISP以及傳感器標(biāo)定等方向。

張雨2016年獲卡內(nèi)基梅隆大學(xué)計算機(jī)視覺的碩士學(xué)位,發(fā)表過多篇高影響力論文。

碩士畢業(yè)1年后,張雨加入Waymo Research擔(dān)任軟件研發(fā)工程師,2019年5月,張雨離開了Waymo。離開Waymo后,他隨即加入輕舟智航,目前擔(dān)任輕舟智航感知總監(jiān),已在輕舟經(jīng)歷了5年多的任期,是計算機(jī)視覺、機(jī)器人學(xué)、機(jī)器學(xué)習(xí)等領(lǐng)域的專家,負(fù)責(zé)輕舟智航感知模塊算法研發(fā)工作。

李陽光2009年本科畢業(yè)于吉林大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè),2012年獲中科院計算技術(shù)研究所碩士學(xué)位。

碩士畢業(yè)后李陽光隨即加入極客網(wǎng),擔(dān)任軟件工程師,2013年10月他離開了極客網(wǎng)。離開極客網(wǎng)后不久,李陽光火速入職百度,擔(dān)任高級軟件工程師,在百度任職3年7個月。

2017年4月離開百度后,李陽光加入小馬智行,擔(dān)任感知領(lǐng)域技術(shù)負(fù)責(zé)人,負(fù)責(zé)自動駕駛感知技術(shù)的研發(fā)及感知系統(tǒng)工程架構(gòu)等工作。同時,他也是小馬智行車路協(xié)同項目的負(fù)責(zé)人,負(fù)責(zé)推動車路協(xié)同技術(shù)的發(fā)展和應(yīng)用場景的實踐探索。

李陽光領(lǐng)導(dǎo)小馬智行感知團(tuán)隊在感知系統(tǒng)方面取得了顯著成果,通過多樣化傳感器的配置和多傳感器深度融合的方案,實現(xiàn)了對自動駕駛車周圍環(huán)境的精確感知。在車路協(xié)同領(lǐng)域,他推動了多項示范場景的建設(shè)和應(yīng)用,如廣州南沙的自動駕駛示范場景、亦莊交通隊執(zhí)法賦能等,為車路協(xié)同技術(shù)的發(fā)展和應(yīng)用提供了有力支持。

楊奎元2007年本科畢業(yè)于中國科學(xué)技術(shù)大學(xué)自動化專業(yè),2012年獲中國科學(xué)技術(shù)大學(xué)自動化博士學(xué)位。

博士畢業(yè)的同年,楊奎元加入微軟擔(dān)任研究員,在這里度過了5年的職業(yè)生涯。2017年7月,楊奎元從微軟離職,成為了DeepMotion(深動科技)的首席科學(xué)家兼聯(lián)合創(chuàng)始人之一。在深動科技,楊奎元度過了4年2個月的職業(yè)生涯。

2021年8月,小米收購深動科技,楊奎元也隨之加入小米汽車,成為智能駕駛部門感知方向的專家工程師。

楊奎元曾在深動科技帶領(lǐng)團(tuán)隊研發(fā)了多傳感器融合感知模組、高精地圖自動化構(gòu)圖、高精度定位等技術(shù)方案,在自動駕駛著名榜單KITTI、Cityscapes上多次取得優(yōu)異成績。他還發(fā)表了多篇頂級國際會議/期刊論文,諸如《DenseASPP for semantic segmentation in street scenes》、《Hard-aware deeply cascaded embedding〉等,他還獲得了多項國際專利。由他孵化的多項基礎(chǔ)技術(shù)已服務(wù)于高精地圖自動化生產(chǎn)、4D時空數(shù)據(jù)自動化標(biāo)注等領(lǐng)域。

董遠(yuǎn)強(qiáng)2010年畢業(yè)于美國密蘇里大學(xué)哥倫比亞分校,獲電子和計算機(jī)工程專業(yè)博士學(xué)位。

2011年9月,董遠(yuǎn)強(qiáng)加入UtopiaCompression,擔(dān)任計算機(jī)視覺科學(xué)家,后于2015年11月離開UtopiaCompression。同年12月,董遠(yuǎn)強(qiáng)加入Nvidia,擔(dān)任高級視覺算法工程師,在Nvidia度過了3年4個月的職業(yè)生涯。

2019年4月,董遠(yuǎn)強(qiáng)離開Nvidia加入騰訊駐美國團(tuán)隊,擔(dān)任首席科學(xué)家并負(fù)責(zé)智能駕駛感知方面的工作把控。

2021年4月,董遠(yuǎn)強(qiáng)結(jié)束了在騰訊的工作生涯,1個月后正式加入小鵬汽車,擔(dān)任智駕部門感知方向的首席工程師,彼時向當(dāng)時的智駕感知總負(fù)責(zé)人王弢匯報工作。隨著王弢的離職和淡出一線,董遠(yuǎn)強(qiáng)接管了小鵬汽車的智駕感知工作,成為該領(lǐng)域的負(fù)責(zé)人。2022年8月,董遠(yuǎn)強(qiáng)領(lǐng)導(dǎo)技術(shù)開發(fā)部的100+成員團(tuán)隊,團(tuán)隊人才涵蓋感知、傳感器融合、預(yù)測等領(lǐng)域。2023年11月,董遠(yuǎn)強(qiáng)正式成為小鵬汽車智駕感知的總負(fù)責(zé)人,并擔(dān)任技術(shù)研發(fā)的掌舵者,推動中美研發(fā)部門的智駕項目交付。

董遠(yuǎn)強(qiáng)曾發(fā)表過多篇優(yōu)秀paper,如《A Video-based Adaptive Intelligent Hemispherical Threat Detection System》,《An Intelligent Visual Sensing System for Unmanned Surface Vehicle》等。

#CLIP(Contrastive Language-Image Pre-training)

CLIP怎么“魔改”?盤點CLIP系列模型泛化能力提升方面的研究

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以來,在多個領(lǐng)域展現(xiàn)了強(qiáng)大的跨模態(tài)泛化能力,比如在跨模態(tài)檢索、圖像搜索、圖像識別與分類等方面取得了顯著的研究成果。CLIP模型在預(yù)訓(xùn)練階段學(xué)習(xí)到的通用知識可以遷移到特定的下游任務(wù)中,這有助于在缺乏大量標(biāo)注數(shù)據(jù)的情況下,提升模型在新任務(wù)上的性能。CLIP的泛化能力使其能夠跨足不同的領(lǐng)域和任務(wù),如視頻行為識別,即使在沒有針對特定任務(wù)進(jìn)行過訓(xùn)練的情況下,也能夠表現(xiàn)出良好的性能。本文總結(jié)了CLIP的幾大經(jīng)典應(yīng)用場景,并梳理了近期發(fā)布的一些公眾:在局部物體識別、圖像生成、音頻生成、動作識別和零樣本異常檢測多個領(lǐng)域的泛化能力。

為了將CLIP擴(kuò)展為多模態(tài)模型,從而能夠適用于多模態(tài)任務(wù),文章對CLIP進(jìn)行了多種“改造”:添加模態(tài)特定的編碼器從而將多模態(tài)信息輸入CLIP、在CLIP多模態(tài)編碼器中使用適配器、添加投影層將不同模態(tài)的特征映射到一個共同的特征空間、使用多任務(wù)解碼器同時處理多種類型的任務(wù)、利用掩碼語言模型來增強(qiáng)文本編碼器對其他模態(tài)描述的理解、設(shè)計有效的融合策略來結(jié)合不同模態(tài)的信息、利用注意力機(jī)制來選擇性地關(guān)注不同模態(tài)中與任務(wù)最相關(guān)的部分等。通過以上方法,CLIP可以被擴(kuò)展為一個強(qiáng)大的多模態(tài)模型,能夠處理包括圖像、視頻、文本和音頻在內(nèi)的多種數(shù)據(jù)類型,進(jìn)而在多模態(tài)學(xué)習(xí)和理解任務(wù)中展現(xiàn)出強(qiáng)大的泛化能力。

1 局部物體識別

重新思考low-shot CLIP 適配中的視覺內(nèi)容細(xì)化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

??https://arxiv.org/abs/2407.14117??

文章總結(jié)

最近的研究表明可以通過促進(jìn)知識有效轉(zhuǎn)移來提高對比視覺語言預(yù)訓(xùn)練(CLIP)的low-shot能力。然而,對原有模型的調(diào)整方法通常是在輸入圖像的全局視圖上操作的,因此對圖像的部分局部細(xì)節(jié)的感知是有偏差的。為了解決這個問題,我們提出了在測試階段的適應(yīng)計算之前進(jìn)行視覺內(nèi)容細(xì)化(VCR, Visual Content Refinement)。具體來說,我們首先將測試圖像分解為不同的比例,以將特征提取器的注意力轉(zhuǎn)移到圖像的細(xì)節(jié)上。然后,我們選擇每個尺度中具有最大預(yù)測邊際(max prediction margin)的圖像視圖,以過濾掉嘈雜的圖像視圖,其中預(yù)測邊際是根據(jù)預(yù)訓(xùn)練的 CLIP 模型計算的。最后,我們根據(jù)所選圖像視圖的比例合并其內(nèi)容,以構(gòu)建新的具有魯棒性的表示。因此,合并的內(nèi)容可以直接用于幫助適配器專注于全局和局部部分,而無需任何額外的訓(xùn)練參數(shù)。將本文的方法應(yīng)用于具有 13 個數(shù)據(jù)集的 3 個低樣本基準(zhǔn)任務(wù),取得了比最先進(jìn)方法的顯著改進(jìn)。例如,與少樣本分類任務(wù)的基線(Tip-Adapter)相比,本文的方法在免訓(xùn)練和需要訓(xùn)練的設(shè)置中平均實現(xiàn)了約2%的性能改進(jìn)。

模型解析

  • 本文的模型聚焦于圖像多尺度分解,即將測試圖像分解成不同的尺度(或稱為“視圖”),旨在使特征提取器能夠關(guān)注到圖像中的細(xì)節(jié)信息,通過多尺度分解,不同尺度的圖像視圖能夠捕捉到從全局到局部的多種特征。
  • 在每個尺度中選擇最具代表性的圖像視圖,即那些對分類任務(wù)貢獻(xiàn)最大的視圖,以過濾掉噪聲和冗余信息:使用預(yù)訓(xùn)練的 CLIP 模型對每個圖像視圖進(jìn)行預(yù)測,并計算其預(yù)測邊際。預(yù)測邊際反映了模型對特定類別的確信程度,通常通過最優(yōu)分類得分與次優(yōu)得分的差值來衡量。在每個尺度中,選擇具有最大預(yù)測邊際的圖像視圖。
  • 將不同尺度下選出的圖像視圖合并成一個新的表示,該表示既包含全局信息也包含重要的局部細(xì)節(jié):對于不同尺度下的細(xì)化特征,通過學(xué)習(xí)一個權(quán)重向量來實現(xiàn),該向量對不同尺度的特征給予不同的重視程度。將這些加權(quán)后的特征進(jìn)行合并,即將多個尺度的特征按照權(quán)重相加,形成一個統(tǒng)一的表示。
  • 這個新的表示可以用于免訓(xùn)練適配器(training-free adapter)或提示學(xué)習(xí)器(prompt learner),幫助模型更有效地理解和適應(yīng)不同的任務(wù)和數(shù)據(jù)。

該模型框架通過圖像的多尺度分解、基于預(yù)測邊際的圖像視圖選擇和圖像多視圖內(nèi)容的合并,有效地提升了低樣本 CLIP 適配的性能。

SAM2CLIP2SAM:3D CT 掃描分割的視覺語言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

??https://arxiv.org/abs/2407.15728??

文章總結(jié)

本文提出了一種圖像有效分割的新方法,可以集成到任何模型和方法中,對用于 Covid-19 檢測的醫(yī)學(xué)圖像(3D 胸部 CT 掃描)進(jìn)行分類。本文的方法包括視覺語言模型的組合,這些模型對 CT 掃描進(jìn)行分割,然后將其饋送到名為 RACNet 的深度神經(jīng)架構(gòu)中,用于 Covid-19 檢測。特別是,引入了一個名為 SAM2CLIP2SAM 的新框架進(jìn)行分割,該框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的優(yōu)勢,在 CT 掃描中準(zhǔn)確分割右肺和左肺,隨后將這些分割輸出輸入 RACNet,用于對 COVID-19 和非 COVID-19 病例進(jìn)行分類。首先,SAM 為 CT 掃描中的每個切片生成多個基于零件的分割模板;然后 CLIP 僅選擇與感興趣區(qū)域 (ROI, regions of interest) 相關(guān)的掩碼,即右肺和左肺;最后,SAM 被賦予這些 ROI 作為提示,并為肺部生成最終的分割掩碼。實驗使用了兩個 Covid-19 注釋的數(shù)據(jù)庫,這些數(shù)據(jù)庫說明了當(dāng)我們的方法用于 CT 掃描分割時實現(xiàn)了性能的改進(jìn)。

模型解析

  • 文章提出的模型框架名為SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)對CT掃描中的每一層(slice)進(jìn)行初步分割,生成多個基于部分的分割掩碼(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型從SAM生成的多個分割掩碼中選擇與感興趣區(qū)域(ROIs),即右肺和左肺,相關(guān)的掩碼。CLIP通過對比圖像和文本描述之間的相似性來實現(xiàn)這一目標(biāo),它能夠識別出與“右肺”和“左肺”描述最匹配的分割掩碼。再將CLIP選擇的ROIs作為提示(prompts)重新輸入給SAM,SAM根據(jù)這些ROIs生成針對右肺和左肺的最終精細(xì)化分割掩碼。
  • 這些分割后的圖像數(shù)據(jù)被輸入到RACNet中,RACNet是一個專門為處理3D CT掃描數(shù)據(jù)設(shè)計的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),包括一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)和一個遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。RACNet通過處理這些分割后的圖像數(shù)據(jù),提取相關(guān)特征,并基于這些特征對輸入進(jìn)行COVID-19和非COVID-19病例的分類。

該框架的創(chuàng)新之處在于它巧妙地結(jié)合了SAM在廣泛對象分割方面的強(qiáng)大能力和CLIP在理解圖像與文本之間關(guān)系方面的優(yōu)勢,實現(xiàn)了對CT掃描中特定區(qū)域(如肺部)的精確分割。隨后,通過RACNet對分割后的圖像數(shù)據(jù)進(jìn)行深入分析,提高了COVID-19診斷的準(zhǔn)確性和可靠性。

2 圖像生成

DiffX:指導(dǎo)布局進(jìn)行跨模態(tài)生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

??https://arxiv.org/abs/2407.15488??

文章總結(jié)

擴(kuò)散模型在文本驅(qū)動和布局驅(qū)動的圖像生成方面取得了重大進(jìn)展。但是,大多數(shù)擴(kuò)散模型僅限于生成可見的 RGB 圖像。事實上,人類對世界的感知因各種觀點而豐富,包括色差、熱照明和深度信息。本文介紹了一種用于一般布局引導(dǎo)的跨模態(tài)“RGB+X”生成的新型擴(kuò)散模型,稱為DiffX。首先使用LLaVA模型構(gòu)建帶有文本描述的跨模態(tài)圖像數(shù)據(jù)集,并輔以手動校正。值得注意的是,DiffX 提供了一個簡單而有效的跨模態(tài)生成建模管道,該管道在雙路徑變分自動編碼器 (DP-VAE) 的推動下,在模態(tài)共享的潛在空間中進(jìn)行擴(kuò)散和去噪過程。此外,結(jié)合了門控交叉注意力機(jī)制來連接布局和文本條件,利用 Long-CLIP 嵌入長字幕以增強(qiáng)用戶指導(dǎo)。通過廣泛的實驗,DiffX在各種布局類型的指導(dǎo)下,在三個RGB+X數(shù)據(jù)集(FLIR、MFNet和COME15K)上展示了跨模態(tài)生成的魯棒性和靈活性。它還顯示了自適應(yīng)生成“RGB+X+Y”或更多樣化模態(tài)的潛力。

模型解析

  • 文章首先使用LLaVA模型(一種用于圖像標(biāo)注的模型)來自動生成跨模態(tài)圖像數(shù)據(jù)集的文本描述,并輔以手動校正。
  • 然后利用DiffX模型進(jìn)行跨模態(tài)生成建模,該過程在模態(tài)共享的潛在空間中進(jìn)行擴(kuò)散和去噪。模型的核心是雙路徑變分自編碼器(DP-VAE),它允許在不同模態(tài)(如RGB和X)之間共享潛在表示,從而支持跨模態(tài)生成。
  • 為了連接布局和文本條件,DiffX模型結(jié)合了門控交叉注意力機(jī)制,有效地將布局信息和文本信息相結(jié)合,使模型能夠更準(zhǔn)確地理解用戶意圖和生成指導(dǎo)。為了進(jìn)一步增強(qiáng)用戶指導(dǎo),DiffX模型利用Long-CLIP來嵌入長字幕,從而能夠處理更長的文本描述,并將其轉(zhuǎn)換為有效的特征表示,這些特征表示被用于指導(dǎo)跨模態(tài)圖像的生成過程。

DiffX模型通過結(jié)合先進(jìn)的數(shù)據(jù)集構(gòu)建方法、跨模態(tài)生成建模、門控交叉注意力機(jī)制和Long-CLIP嵌入技術(shù),實現(xiàn)了有效的跨模態(tài)“RGB+X”圖像生成,展示了在更復(fù)雜的跨模態(tài)生成任務(wù)(如“RGB+X+Y”或更多樣化的模態(tài))中的潛力。

X-Former:MLLM的統(tǒng)一對比和重構(gòu)學(xué)習(xí)

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

??https://arxiv.org/abs/2407.13851??

文章總結(jié)

多模態(tài)大型語言模型 (MLLM) 的最新進(jìn)展通過將視覺感知能力集成到大型語言模型 (LLM) 中,徹底改變了視覺語言理解領(lǐng)域。該領(lǐng)域的流行趨勢涉及使用源自視覺語言對比學(xué)習(xí) (CL) 的視覺編碼器,在捕捉整體表征方面表現(xiàn)出專業(yè)知識,同時在捕捉詳細(xì)的局部模式方面面臨困難。這項工作專注于通過結(jié)合通過掩碼圖像建模 (MIM) 獲得的高頻和詳細(xì)視覺表示與?CL 捕獲的語義豐富的低頻表示增強(qiáng) MLLM 的視覺表示。為了實現(xiàn)這一目標(biāo),本文推出了X-Former,這是一種輕量級Transformer模塊,旨在通過創(chuàng)新的相互作用機(jī)制來利用CL和MIM的互補(bǔ)優(yōu)勢。具體來說,X-Former 首先從兩個凍結(jié)的視覺編碼器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中啟動視覺語言表示學(xué)習(xí)和多模態(tài)到多模態(tài)生成學(xué)習(xí)。它進(jìn)一步利用凍結(jié)的 LLM 進(jìn)行視覺到語言的生成學(xué)習(xí),以確保 X-Former 的視覺特征可以被 LLM 解釋。為了證明我們方法的有效性,我們評估了其在需要詳細(xì)視覺理解的任務(wù)中的性能。廣泛的評估表明,X-Former 在涉及 GQA 數(shù)據(jù)集中結(jié)構(gòu)和語義類別的視覺推理任務(wù)中表現(xiàn)出色。細(xì)粒度視覺感知基準(zhǔn)評估進(jìn)一步證實了其在視覺理解方面的卓越能力。

模型解析

  • 首先利用兩個凍結(jié)的視覺編碼器(CLIP-ViT和MAE-ViT)來引導(dǎo)視覺語言表示學(xué)習(xí),CLIP-ViT通過視覺語言對比學(xué)習(xí)策略進(jìn)行預(yù)訓(xùn)練,而MAE-ViT通過隨機(jī)掩碼圖像建模機(jī)制進(jìn)行訓(xùn)練,兩個視覺編碼器從輸入圖像文本對中提取視覺特征。為了整合這兩種視覺編碼器的信息,并同時學(xué)習(xí)全局和局部信息,引入了一個輕量級的Transformer模塊,稱為X-Former,它擴(kuò)展了Q-Former來整合全局和局部信息。
  • X-Former的輸入為一組可學(xué)習(xí)的query Z,輸入文本Tk和圖像特征(C, M)。第一個交叉注意塊采用MAE特征(M)作為query,Q-Former輸出(Zq)作為key和value,通過集成來自Q-Former的全局語義信息來對齊和增強(qiáng)M,從而豐富了MAE特征(M’)。隨后,M’通過交叉注意整合全局和局部信息,將Q-Former輸出(Zq)增強(qiáng)到Z '。
  • 增強(qiáng)查詢(Z ')根據(jù)圖像文本匹配(ITM)、圖像文本對比(ITC)和圖像文本生成(ITG)損失進(jìn)行了優(yōu)化。最后,將M′傳遞給凍結(jié)的MAE解碼器來重建被屏蔽的補(bǔ)丁。

X-Former是一個輕量級的Transformer模塊,它設(shè)計了一種創(chuàng)新的交互機(jī)制來利用對比學(xué)習(xí)(CL)和掩碼圖像建模(MIM)的互補(bǔ)優(yōu)勢。通過這種機(jī)制,X-Former能夠有效地融合CLIP-ViT和MAE-ViT的輸出,并生成既包含全局語義信息又包含詳細(xì)局部特征的視覺表示。

3 音頻生成

!盲文也能玩:盲文轉(zhuǎn)語音生成器-基于 CLIP 和 Fastspeech2 聯(lián)合微調(diào)的音頻生成

Chun Xu, En-Wei Sun

??https://arxiv.org/abs/2407.14212??

文章總結(jié)

越來越多的中國人受到不同程度的視覺障礙的困擾,這使得視野中的單個圖像或視頻幀與表達(dá)相同信息的音頻之間的模態(tài)轉(zhuǎn)換成為研究熱點。OCR+Vocoder 和 Im2Wav 等深度學(xué)習(xí)技術(shù)以自監(jiān)督的方式實現(xiàn)英語音頻合成或圖像到聲音的匹配。然而,用于培訓(xùn)的音頻數(shù)據(jù)有限,英語對于不同教育水平的視障人士來說并不通用。因此,為了解決數(shù)據(jù)量和語言適用性問題,提高視障人群的閱讀效率,構(gòu)建了一套基于中文語境的圖像轉(zhuǎn)語音框架CLIP-KNN-Fastspeech2。該框架整合了多個基礎(chǔ)模型,并采用了自主預(yù)訓(xùn)練和聯(lián)合微調(diào)的策略。首先,分別在MUGE和Baker兩個公共數(shù)據(jù)集上對中文CLIP和Fastspeech2文本轉(zhuǎn)語音模型進(jìn)行了預(yù)訓(xùn)練,并驗證了它們的收斂性。隨后,使用自建盲文圖像數(shù)據(jù)集進(jìn)行聯(lián)合微調(diào)。在VGGSound、Flickr8k、ImageHear等多個公共數(shù)據(jù)集和自建盲文數(shù)據(jù)集BIT-DP上的實驗結(jié)果表明,該模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客觀指標(biāo)上均有所提升,甚至推理速度也有所提升。這驗證了構(gòu)建的模型在有限的數(shù)據(jù)下仍然具有合成高質(zhì)量語音的能力,也證明了整合多個基礎(chǔ)模型的聯(lián)合訓(xùn)練策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架構(gòu)分為兩個主要階段:圖像到文本階段(image-to-text)和文本到語音階段(text-to-speech)。
  • 圖像到文本階段使用Chinese CLIP模型進(jìn)行自監(jiān)督學(xué)習(xí)和對比學(xué)習(xí),在MUGE等公開數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)圖像與文本對的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法從圖像中檢索出文本信息,KNN根據(jù)正負(fù)樣本之間的特征差異來提取文本。
  • 文本到語音階段使用Fastspeech2 文本轉(zhuǎn)語音模型,在Baker等公開數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)文本到語音的映射關(guān)系。輸入上一階段生成的文本,生成對應(yīng)的mel頻譜圖,并將其解碼為語音。

最后使用自建的盲文圖像數(shù)據(jù)集(Braille dataset)進(jìn)行聯(lián)合微調(diào)。

4 動作識別

M2-CLIP:一種用于視頻動作識別的多模態(tài)、多任務(wù)自適應(yīng)框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

??https://arxiv.org/abs/2401.11649??

文章總結(jié)

近年來,大規(guī)模視覺語言預(yù)訓(xùn)練模型(如CLIP)的興起,再加上參數(shù)高效微調(diào)(PEFT)技術(shù),在視頻動作識別領(lǐng)域引起了極大的關(guān)注。然而,流行的方法傾向于優(yōu)先考慮強(qiáng)大的監(jiān)督性能,代價是在遷移過程中損害模型的泛化能力。本文引入了一種名為M2-CLIP的新型多模態(tài)、多任務(wù)CLIP適應(yīng)框架來解決這些挑戰(zhàn),同時保持高監(jiān)督性能和魯棒可移植性。首先,為了增強(qiáng)單個模態(tài)體系結(jié)構(gòu),我們在可視化和文本分支中引入了多模態(tài)適配器。具體來說,文章設(shè)計了一種新的視覺TED適配器,它執(zhí)行全局時間增強(qiáng)和局部時間差分建模,以提高視覺編碼器的時間表示能力。此外,我們采用文本編碼器適配器來加強(qiáng)語義標(biāo)簽信息的學(xué)習(xí)。其次,文章設(shè)計了一個具有豐富監(jiān)督信號集的多任務(wù)解碼器,以熟練地滿足在多模態(tài)框架內(nèi)對強(qiáng)監(jiān)督性能和泛化的需求。實驗結(jié)果驗證了我們的方法的有效性,在監(jiān)督學(xué)習(xí)中表現(xiàn)出卓越的性能,同時在零樣本場景中保持了很強(qiáng)的泛化。

模型解析

  • M2-CLIP框架輸入為視頻V和文本標(biāo)簽y,視頻經(jīng)過視頻編碼器處理后,其特征在時間維度上進(jìn)行平均池化,得到最終的視頻表示v。文本標(biāo)簽經(jīng)過文本編碼器處理后,得到文本表示w。輸出為通過多任務(wù)解碼器得到的分類結(jié)果,可以用于監(jiān)督學(xué)習(xí)任務(wù)和零樣本分類任務(wù)。
  • M2-CLIP引入了多模態(tài)適配器,包括一個視覺TED-Adapter,用于改善視覺編碼器的時間表示能力,來實現(xiàn)全局時間增強(qiáng)(Temporal Enhancement)和局部時間差異(local temporal Difference)建模;以及一個文本編碼器適配器,用于加強(qiáng)學(xué)習(xí)語義標(biāo)簽信息。
  • M2-CLIP的多任務(wù)解碼器包括對比學(xué)習(xí)頭(Contrastive Learning Head),用于對齊視頻和文本表示的成對表示,使用對比學(xué)習(xí)損失進(jìn)行優(yōu)化;跨模態(tài)分類頭(Cross-Modal Classification Head, CMC),用于突出跨模態(tài)特征的判別能力,通過將問題轉(zhuǎn)化為1-C分類任務(wù)來增強(qiáng)跨模態(tài)相似性分?jǐn)?shù);跨模態(tài)掩碼語言模型頭(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一層設(shè)計,促進(jìn)視覺特征聚焦于動作動詞的識別,使用BERT掩碼語言模型頭來預(yù)測掩碼詞;視覺分類頭(Visual Classification Head, VC),在視覺分支末端引入,用于增強(qiáng)不同類別視頻特征的區(qū)分度,使用線性層進(jìn)行分類。

M2-CLIP框架能夠在保持高監(jiān)督性能的同時,實現(xiàn)強(qiáng)大的零樣本泛化能力。這得益于模型的多模態(tài)適配器和多任務(wù)解碼器,它們共同作用于視頻和文本的聯(lián)合表示學(xué)習(xí),并通過不同的學(xué)習(xí)任務(wù)來提升模型的語義對齊和類別區(qū)分能力。

細(xì)粒度知識圖譜驅(qū)動的視頻語言學(xué)習(xí),用于動作識別

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

??https://arxiv.org/abs/2407.14146??

文章總結(jié)

最近的工作已經(jīng)探索了視頻動作識別作為視頻-文本匹配問題,并提出了幾種基于大規(guī)模預(yù)訓(xùn)練視覺語言模型的有效方法。然而,這些方法主要在粗粒度的層面上運(yùn)行,而沒有通過利用動作和身體運(yùn)動之間的細(xì)粒度語義聯(lián)系來對動作概念進(jìn)行詳細(xì)的語義理解。為了解決這一差距,我們提出了一個由知識圖譜指導(dǎo)的對比視頻語言學(xué)習(xí)框架,稱為KG-CLIP,它將結(jié)構(gòu)化信息整合到視頻領(lǐng)域的CLIP模型中。具體來說,我們通過基于組合學(xué)習(xí)的解析動作,構(gòu)建了一個由多粒度概念組成的多模態(tài)知識圖譜。通過實現(xiàn)三元編碼器偏差補(bǔ)償來自適應(yīng)優(yōu)化實體距離函數(shù)中的邊際,我們的模型旨在改善知識圖譜中實體的對齊,以更好地適應(yīng)復(fù)雜的關(guān)系學(xué)習(xí)。這允許通過適應(yīng)圖形組件之間的細(xì)微關(guān)聯(lián)來增強(qiáng)視頻動作識別功能。我們在Kinetics-TPS(一個大規(guī)模的動作解析數(shù)據(jù)集)上全面評估了KG-CLIP,證明了其與競爭基線相比的有效性。特別是,我們的方法在樣本幀少或訓(xùn)練數(shù)據(jù)有限的情況下,在動作識別方面表現(xiàn)出色,表現(xiàn)出優(yōu)異的數(shù)據(jù)利用和學(xué)習(xí)能力。

模型解析

  • KG-CLIP通過解析視頻內(nèi)容(如動作、場景、物體等)和相關(guān)的文本描述(如動作標(biāo)簽、句子描述等),構(gòu)建了一個多模態(tài)知識圖譜。這個圖譜不僅包含了視頻中的視覺元素(如動作、身體部位的運(yùn)動),還包含了它們之間的語義關(guān)系和上下文信息(如動作描述、概念標(biāo)簽等)。在構(gòu)建好知識圖譜后,KG-CLIP將其與CLIP模型進(jìn)行融合。通過擴(kuò)展CLIP模型的輸入層,使其能夠接收知識圖譜中的結(jié)構(gòu)化信息(如實體嵌入、關(guān)系向量等),以在視頻領(lǐng)域?qū)崿F(xiàn)更高效的視頻-文本匹配。
  • 然后利用CLIP模型的視覺編碼器部分,從視頻中提取出豐富的視覺特征,包括視頻中的基本元素(如顏色、紋理、形狀等),及更高級別的語義信息(如動作、場景等)。
  • KG-CLIP用一個三元編碼器捕捉三元組中的實體和關(guān)系信息,它接收知識圖譜中的三元組作為輸入,并輸出每個實體和關(guān)系的向量表示(如<頭實體, 關(guān)系, 尾實體>)。這些向量表示隨后被用于計算實體之間的距離和相似性。
  • KG-CLIP引入了偏差補(bǔ)償機(jī)制,根據(jù)實體的具體特征和它們之間的關(guān)系,動態(tài)調(diào)整距離函數(shù)中的參數(shù)。這樣KG-CLIP能夠更準(zhǔn)確地衡量實體之間的相似性和差異性,從而提高模型的整體性能。

KG-CLIP通過一系列創(chuàng)新性的設(shè)計(如知識圖譜構(gòu)建、三元編碼器實現(xiàn)、偏差補(bǔ)償機(jī)制等),成功地將結(jié)構(gòu)化信息整合到CLIP模型中,并在視頻動作識別等任務(wù)中取得了顯著的性能提升。

5 零樣本異常檢測

AnomalyCLIP:用于零樣本異常檢測的對象識別提示學(xué)習(xí)

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

??https://arxiv.org/abs/2310.18961??

文章總結(jié)

最近,大型預(yù)訓(xùn)練視覺語言模型 (VLM),例如 CLIP,在包括異常檢測在內(nèi)的各種視覺任務(wù)中展示了強(qiáng)大的零樣本識別能力。然而,它們的零樣本異常檢測(ZSAD)性能較弱,因為VLM更側(cè)重于對前景對象(foreground objects)的類語義進(jìn)行建模,而不是圖像中的異常/正常性(abnormality/normality)。本文引入了一種新的方法,即AnomalyCLIP,使CLIP在不同領(lǐng)域中實現(xiàn)準(zhǔn)確的ZSAD。AnomalyCLIP 的關(guān)鍵是學(xué)習(xí)與對象無關(guān)的文本提示,這些文本提示會捕獲圖像中的一般正常性和異常性,而不管其前景對象如何。這使我們的模型能夠?qū)W⒂诋惓D像區(qū)域而不是對象語義,從而能夠?qū)Σ煌愋偷膶ο筮M(jìn)行廣義正常性和異常識別。在17個真實世界異常檢測數(shù)據(jù)集上的大規(guī)模實驗表明,AnomalyCLIP在各種缺陷檢測和醫(yī)學(xué)成像領(lǐng)域的高度多樣化的類別語義數(shù)據(jù)集中實現(xiàn)了卓越的零樣本檢測和分割異常性能。

模型解析

  • AnomalyCLIP設(shè)計了兩種通用的與對象無關(guān)文本提示(Object-Agnostic Text Prompts)模板:一種用于正常性(normality),另一種用于異常性(abnormality)。這些提示模板不包含具體對象的語義,而是專注于捕獲圖像中的異常模式,無論前景對象是什么。
  • 然后進(jìn)行全局上下文優(yōu)化和局部上下文優(yōu)化:通過交叉熵?fù)p失函數(shù),將對象無關(guān)的文本嵌入與輔助數(shù)據(jù)中正常/異常圖像的視覺嵌入進(jìn)行匹配,以捕獲全局特征中的正常/異常語義。通過焦點損失(Focal Loss)和Dice損失,優(yōu)化文本提示以關(guān)注視覺編碼器中間層的細(xì)粒度、局部異常區(qū)域。
  • 通過在CLIP文本編碼器的每一層添加可學(xué)習(xí)的標(biāo)記嵌入(token embeddings),來精細(xì)化原始文本空間,使其更適合異常檢測任務(wù)。通過引入對角突出的注意力圖(Diagonally Prominent Attention Map, DPAM)來改進(jìn)局部視覺空間,使得注意力圖更加關(guān)注局部視覺語義,從而提高異常檢測的準(zhǔn)確性。AnomalyCLIP整合了來自視覺編碼器多個中間層的特征,以提供更多的局部視覺細(xì)節(jié),增強(qiáng)模型對異常區(qū)域的識別能力。

AdaCLIP:使用混合可學(xué)習(xí)提示的自適應(yīng)CLIP用于零樣本異常檢測

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

??https://arxiv.org/abs/2407.15795??

文章總結(jié)

零樣本異常檢測(ZSAD)的目標(biāo)是從任意新穎的類別中識別圖像中的異常。本研究引入AdaCLIP用于ZSAD任務(wù),利用預(yù)訓(xùn)練的視覺語言模型(VLM)CLIP。AdaCLIP將可學(xué)習(xí)的提示整合到CLIP中,并通過在輔助注釋的異常檢測數(shù)據(jù)上進(jìn)行訓(xùn)練來優(yōu)化它們。AdaCLIP引入了兩種類型的可學(xué)習(xí)提示:靜態(tài)提示和動態(tài)提示。靜態(tài)提示在所有圖像中共享,用于初步調(diào)整CLIP以適應(yīng)ZSAD。相比之下,為每個測試圖像生成動態(tài)提示,為CLIP提供動態(tài)自適應(yīng)功能。靜態(tài)和動態(tài)提示的組合稱為混合提示,可提高ZSAD性能。在工業(yè)和醫(yī)療領(lǐng)域的14個真實世界的異常檢測數(shù)據(jù)集上進(jìn)行的廣泛實驗表明,AdaCLIP優(yōu)于其他ZSAD方法,可以更好地推廣到不同的類別甚至領(lǐng)域。最后,我們的分析強(qiáng)調(diào)了多樣化輔助數(shù)據(jù)和優(yōu)化提示對于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了兩種類型的提示——靜態(tài)提示(Static Prompts)和動態(tài)提示(Dynamic Prompts)。靜態(tài)提示在所有圖像中共享,它們在訓(xùn)練過程中從輔助數(shù)據(jù)中學(xué)習(xí),用于初步調(diào)整CLIP模型以適應(yīng)ZSAD任務(wù)。動態(tài)提示是針對每個測試圖像生成的,它們提供了模型對不同圖像的動態(tài)適應(yīng)能力。將靜態(tài)和動態(tài)提示結(jié)合起來,形成混合提示,這樣可以提高模型對新類別圖像的異常檢測性能。
  • 為了解決CLIP原始架構(gòu)中圖像嵌入(Patch Embeddings)與文本嵌入維度不匹配的問題,AdaCLIP添加了一個投影層來對齊這些嵌入的維度,并通過引入偏差的線性層增加了一些可學(xué)習(xí)的參數(shù),以進(jìn)一步微調(diào)CLIP。
  • AdaCLIP還引入了混合語義融合模塊(Hybrid Semantic Fusion, HSF)用于改善像素級別的異常檢測。首先AdaCLIP利用CLIP模型的不同層次的輸出來生成異常圖(Anomaly Maps,基于圖像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之間的余弦相似度計算得到。每個層次的異常圖反映了圖像中不同區(qū)域的異常程度。然后混合語義融合模塊使用KMeans++算法對來自不同層次的異常圖中的嵌入進(jìn)行聚類。這些聚類假設(shè)代表了圖像中的不同區(qū)域,其中具有最高平均異常分?jǐn)?shù)的聚類可能對應(yīng)于異常區(qū)域。最后將這些異常圖融合成一個最終的預(yù)測,從而更準(zhǔn)確地定位和識別圖像中的異常區(qū)域。

綜上,AdaCLIP通過計算圖像嵌入和文本嵌入之間的余弦相似度來確定異常分?jǐn)?shù),這些分?jǐn)?shù)表示圖像及其像素是否正?;虍惓!?/p>

#交互感知再升級

感知預(yù)測規(guī)劃在Waymo24挑戰(zhàn)賽中有哪些亮點?

賽事鏈接:https://cvpr2024.wad.vision/

CVPR 2024 Workshop on Autonomous Driving (WAD) 作為自動駕駛領(lǐng)域的重要盛會,隨著自動駕駛技術(shù)飛速發(fā)展不斷與時俱進(jìn),全面覆蓋自動駕駛的各個領(lǐng)域,包括感知、行為預(yù)測以及運(yùn)動規(guī)劃等。其中的Waymo Open Dataset Challenges 的參賽者需利用Waymo提供的大規(guī)模開放數(shù)據(jù)集,開發(fā)并優(yōu)化其自動駕駛算法,以應(yīng)對復(fù)雜多變的交通場景。

2024CVPR Waymo挑戰(zhàn)賽有以下賽道:

(1)運(yùn)動預(yù)測:給定相應(yīng)地圖上過去1秒的歷史agent以及此時間間隔的相關(guān)激光雷達(dá)和相機(jī)數(shù)據(jù),預(yù)測未來8秒內(nèi)最多8個代理的位置??梢赃x擇使用激光雷達(dá)和攝像頭數(shù)據(jù)。

(2)模擬agent:給定代理在相應(yīng)地圖上過去1秒的軌跡,以及可選的此時間間隔的相關(guān)激光雷達(dá),為場景中的所有agent模擬32個逼真的聯(lián)合預(yù)測。

(3)3D語義分割:給定一個或多個激光雷達(dá)距離圖像和相關(guān)的相機(jī)圖像,為每個激光雷達(dá)點生成語義類標(biāo)簽。

(4)占用和流量預(yù)測:根據(jù)最后一秒觀察到的agent軌跡,預(yù)測所有觀察到的和被遮擋的車輛的BEV占用和運(yùn)動流量。

參賽作品往往致力于融合多個模型框架,從而使模型能夠處理多模態(tài)輸入數(shù)據(jù)(激光雷達(dá)和攝像頭數(shù)據(jù))。這些作品多在損失函數(shù)策略方面創(chuàng)新或使用多種損失函數(shù)來優(yōu)化模型,通過更新錨點、恢復(fù)歷史軌跡、采用多幀訓(xùn)練、改進(jìn)場景編碼等方法,提高模型與場景的交互性,從而提高模型對多個agent對象預(yù)測的穩(wěn)健性,提升模型在復(fù)雜場景中的表現(xiàn)。除了改進(jìn)模型架構(gòu)設(shè)計以外,參賽者還會后續(xù)不斷評估模型的性能,并根據(jù)評估結(jié)果對模型進(jìn)行持續(xù)優(yōu)化,這包括調(diào)整模型結(jié)構(gòu)、優(yōu)化超參數(shù)、改進(jìn)數(shù)據(jù)預(yù)處理和數(shù)據(jù)增強(qiáng)方式等。

運(yùn)動預(yù)測挑戰(zhàn) MOTION PREDICTION CHALLENGE

1st:MTR v3模型

MTR v3: 1st Place Solution for 2024 Waymo Open Dataset Challenge - Motion Prediction

Chen Shi, Shaoshuai Shi, Li Jiang, The Chinese University of Hong Kong (Shenzhen) , DiDi Global

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%201st%20Place%20-%20MTR%20v3.pdf

本文提出的解決方案名為MTR v3,是基于先進(jìn)的MTR++框架進(jìn)行擴(kuò)展。通過引入原始LiDAR數(shù)據(jù)和動態(tài)更新的錨點來改進(jìn)模型,同時采用簡單的模型集成技術(shù)進(jìn)一步提升性能。模型包括場景編碼器網(wǎng)絡(luò)和運(yùn)動解碼器網(wǎng)絡(luò),其中場景編碼器網(wǎng)絡(luò)的輸入為歷史軌跡、道路地圖和原始LiDAR點云,之后通過LiDAR編碼器分割網(wǎng)絡(luò)提取體素特征,生成語義標(biāo)簽,并在BEV空間中進(jìn)行編碼,再使用Transformer編碼器通過查詢中心化的局部自注意力層來聚合特征。運(yùn)動解碼器網(wǎng)絡(luò)首先從K個意圖點(錨點)生成每個焦點代理的意圖查詢(Intention Querying),再輸入解碼器層,通過交叉注意力模塊更新意圖查詢,以聚合來自代理特征、地圖特征和LiDAR特征的信息。最后通過預(yù)測頭(Prediction Head),使用多層感知機(jī)預(yù)測多模態(tài)未來軌跡,表示為高斯混合模型(GMM)。

實驗過程中,文章進(jìn)行了動態(tài)錨點與模型集成。動態(tài)錨點即采用動態(tài)更新和不同的錨點,根據(jù)預(yù)測的軌跡終點動態(tài)選擇正意圖查詢,以適應(yīng)特定場景,提高回歸能力。并且,文章訓(xùn)練多個模型變體,在推理時采用模型集成策略,通過非最大抑制(NMS)選擇前6個預(yù)測軌跡。實驗結(jié)果顯示,該在Waymo開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中排名第一,soft mAP為0.4967,優(yōu)于其他方法。

關(guān)鍵技術(shù)與貢獻(xiàn):

LiDAR數(shù)據(jù)融合:通過引入原始LiDAR數(shù)據(jù),提供細(xì)粒度的語義信息,改善了對行人運(yùn)動的預(yù)測。

動態(tài)錨點更新:采用動態(tài)更新和不同的錨點,解決了傳統(tǒng)方法中錨點稀疏導(dǎo)致的高回歸誤差問題。

模型集成策略:通過模型集成技術(shù),進(jìn)一步提升了最終的性能表現(xiàn)。

2nd:ModeSeq模型

Zikang Zhou, Jianping Wang, Yung-Hui Li, Yu-Kai Huang - City University of Hong Kong, Hon Hai Research Institute, Carnegie Mellon University

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%202nd%20Place%20-%20ModeSeq.pdf

ModeSeq框架是一種基于順序模式建模的多模態(tài)運(yùn)動預(yù)測框架,利用RNN風(fēng)格的Transformer模塊順序解碼軌跡模式,解決了多模態(tài)真實軌跡缺失的問題,提高預(yù)測軌跡的多樣性。ModeSeq框架的編碼器采用QCNet中的因子化Transformer,獲取具有旋轉(zhuǎn)平移不變性的場景嵌入(scene embeddings)。ModeSeq的層由記憶Transformer模塊和因子化Transformer模塊組成,順序解碼多個軌跡模式。其中記憶Transformer通過注意力機(jī)制讓當(dāng)前查詢特征關(guān)注之前解碼的模式,建模模式間的順序依賴;因子化Transformer利用時間Transformer、代理-地圖Transformer和代理-代理Transformer進(jìn)一步豐富查詢特征。最后預(yù)測頭使用多層感知機(jī)解碼軌跡和置信度分?jǐn)?shù)。ModeSeq通過堆疊多個ModeSeq層并進(jìn)行迭代細(xì)化,提升預(yù)測性能,并在每個新層開始前,根據(jù)置信度分?jǐn)?shù)對模式嵌入進(jìn)行排序,確保解碼順序的合理性。

在訓(xùn)練策略優(yōu)化上,文章提出Early-Match-Take-All(EMTA)訓(xùn)練策略,采用EMTA損失,優(yōu)化最早匹配的軌跡,鼓勵模型盡早解碼匹配軌跡?;貧w損失基于Laplace負(fù)對數(shù)似然,優(yōu)化最早匹配的軌跡。分類損失使用二元焦點損失(Binary Focal Loss)優(yōu)化置信度分?jǐn)?shù),通過單調(diào)遞減的標(biāo)簽分配鼓勵模型先輸出更自信的模式。實驗結(jié)果顯示,在驗證集上,ModeSeq在mAP、Soft mAP和Miss Rate上優(yōu)于QCNet,但在minADE和minFDE上略遜一籌。該方法在不犧牲過多minADE和minFDE的情況下,顯著提高了mAP、Soft mAP和Miss Rate,為多模態(tài)問題提供了新的見解和解決方案。

3rd:RMP_Ensemble

Jiawei Sun, Jiahui Li, Tingchen Liu, Chengran Yuan, Shuo Sun, Yuhang Han, Keng Peng Tee, Anthony Wong, Marcelo H. Ang Jr. - National University of Singapore, Moovita Pte Ltd

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%203rd%20Place%20-%20RMP_Ensemble.pdf

準(zhǔn)確預(yù)測周圍交通參與者的未來軌跡對自動駕駛車輛至關(guān)重要。當(dāng)前預(yù)測方法依賴完整的歷史軌跡數(shù)據(jù),但在實際場景中,由于遮擋、傳感器故障和惡劣天氣條件,歷史軌跡可能不完整。因此本文希望提出一個簡單的恢復(fù)模塊,旨在恢復(fù)不完整的歷史軌跡,以增強(qiáng)預(yù)測魯棒性。本文基于MTR框架進(jìn)行修改,引入恢復(fù)模塊,提出了RMP集成方法。除了使用當(dāng)前交通燈信息外,還納入了歷史相對運(yùn)動信息作為輸入上下文。使用多尺度LSTM和PointNet-like網(wǎng)絡(luò)處理時空信息,并通過多上下文門控(MCG)進(jìn)行特征融合。恢復(fù)模塊是通過局部注意力機(jī)制和MLP層恢復(fù)不完整的歷史軌跡,并將恢復(fù)的信息集成到代理標(biāo)記中。編碼器對特征通過多尺度LSTM和MCG模塊進(jìn)行聚合和融合,利用局部注意力機(jī)制進(jìn)行進(jìn)一步特征提取。解碼器與MTR解碼器相同,但在損失計算之間應(yīng)用了演化和不同的錨點技巧??倱p失函數(shù)由MTR原始損失和恢復(fù)損失組成,旨在同時優(yōu)化預(yù)測精度和恢復(fù)模塊性能。其中恢復(fù)損失是通過L1損失計算恢復(fù)的歷史軌跡與真實歷史軌跡之間的差異。實驗結(jié)果顯示,使用Waymo Open Motion Dataset進(jìn)行訓(xùn)練和評估,RMP集成方法在Soft mAP上排名第三,重疊率排名第一,ADE和FDE也表現(xiàn)出色。在車輛、行人和自行車類別上分別進(jìn)行了詳細(xì)評估,展示了RMP方法在不同場景下的表現(xiàn)。文章還通過隨機(jī)掩蓋歷史時間戳來評估方法的魯棒性,結(jié)果顯示RMP方法在處理缺失歷史數(shù)據(jù)方面顯著優(yōu)于MTR。

模擬agent挑戰(zhàn) SIM AGENTS CHALLENGE

1st:BehaviorGPT

Zikang Zhou, Haibo Hu, Xinhong Chen, Jianping Wang, Nan Guan, Kui Wu, Yung-Hui Li, Yu-Kai Huang, Chun Jason Xue - City University of Hong Kong, University of Victoria, Hon Hai Research Institute, Carnegie Mellon University, Mohamed bin Zayed University of Artificial Intelligence

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%201st%20Place%20-%20BehaviorGPT.pdf

BehaviorGPT在自動駕駛領(lǐng)域展現(xiàn)了卓越性能,在Waymo開放模擬代理挑戰(zhàn)中,其0.7473的現(xiàn)實性得分和1.4147的minADE得分令人矚目,且僅使用3M模型參數(shù)。該技術(shù)強(qiáng)調(diào)自動駕駛系統(tǒng)安全性評估的重要性,通過模擬實現(xiàn)低成本、大規(guī)模的離線測試。BehaviorGPT利用僅解碼器自回歸模型提高數(shù)據(jù)和參數(shù)效率,模擬逼真的agent,對驗證自動駕駛系統(tǒng)至關(guān)重要。

BehaviorGPT采用NP3方法解決因果混淆問題,通過軌跡補(bǔ)丁級別的推理(reason at the patch level)促進(jìn)長范圍交互建模(long-range interactions modeling),提高預(yù)測準(zhǔn)確性。該模型還通過混合模型捕捉智能體行為的多樣性,利用鏈?zhǔn)椒▌t分解狀態(tài)分布,進(jìn)一步提升了多智能體系統(tǒng)行為預(yù)測的能力。此外,BehaviorGPT引入相對時空表示法(relative spatial-temporal positional embeddings),通過QCNet模型在空間和時間上對稱地建模補(bǔ)丁,處理多代理交互和動態(tài)環(huán)境。同時,通過維護(hù)輸入元素間的相對位置嵌入,有效保持空間-時間關(guān)系,提高代理的反應(yīng)性和預(yù)測準(zhǔn)確性。

總之,BehaviorGPT通過創(chuàng)新的架構(gòu)和算法,為自動駕駛領(lǐng)域的研究與發(fā)展提供了新的思路和工具。其高性能的模擬和準(zhǔn)確的預(yù)測能力,將有助于推動自動駕駛系統(tǒng)的進(jìn)一步完善和應(yīng)用。

2nd:VBD

Zhiyu Huang, Zixu Zhang, Jaime Fernández Fisac, Chen Lv - Nanyang Technological University, Princeton University

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%202nd%20Place%20-%20VBD.pdf

本文介紹了一種名為Versatile Behavior Diffusion Model(VBD)的交通模擬框架,該框架旨在模擬智能體在復(fù)雜交通環(huán)境中的逼真且可控行為。VBD模型通過結(jié)合場景編碼器(query-centric Transformer encoder)、去噪器(Transformer denoiser)和行為預(yù)測器(Transformer-based multi-modal marginal trajectory predictor),能夠有效模擬多代理的聯(lián)合行為(scene-level joint behaviors of agents),并在高度交互的交通場景下降低碰撞風(fēng)險。該模型利用地圖和代理的歷史狀態(tài)作為條件輸入,通過去噪和可控采樣技術(shù)生成高質(zhì)量的交通場景。此外,VBD模型還采用了一種基于動態(tài)函數(shù)的代理行為分析方法,將代理行為轉(zhuǎn)化為物理狀態(tài),為行為預(yù)測提供了有力工具。通過編碼多源輸入,包括代理歷史、地圖信息和交通燈狀態(tài),VBD模型能夠在復(fù)雜環(huán)境中實現(xiàn)準(zhǔn)確的決策和預(yù)測。此外,該模型還采用了一種改進(jìn)的場景編碼方法,通過共享GRU網(wǎng)絡(luò)和基于查詢的Transformer層,實現(xiàn)場景元素間相互關(guān)系的高效編碼。在Waymo 2024 Sim Agents基準(zhǔn)測試中,VBD模型表現(xiàn)出競爭性的性能,為智能交通系統(tǒng)的研究提供了有力支持。

3rd:TrafficBotsV1.5

Zhejun Zhang, Christos Sakaridis, Luc Van Gool - ETH Zurich

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%203rd%20Place%20-%20TrafficBotsV1.5.pdf

TrafficBots V1.5是基于條件變分自編碼器(CVAE, conditional variational autoencoder)和異構(gòu)折線變換器(HPTR, Heterogeneous Polyline Transformer with Relative pose encoding)的先進(jìn)交通代理閉環(huán)模擬基線方法。它通過為每個交通代理學(xué)習(xí)特定策略,根據(jù)歷史數(shù)據(jù)預(yù)測其行動,并在Waymo OpenSim Agents Challenge 2024中取得顯著成績。V1.5引入共享決策策略,設(shè)定導(dǎo)航目的地和人格特性,并采用相對姿態(tài)編碼和K-最近鄰注意力模塊(KNARPE, K-nearest Neighbor Attention with Relative Pose Encoding)優(yōu)化Transformer性能。該方法摒棄了RNN,采用堆疊歷史觀測作為輸入,結(jié)合PointNet處理時間數(shù)據(jù),保留了HPTR的優(yōu)勢,同時提高了效率和準(zhǔn)確性。通過計劃性教師強(qiáng)制和采樣場景過濾,TrafficBots V1.5在目標(biāo)預(yù)測器上實現(xiàn)顯著改進(jìn),盡管在交通燈狀態(tài)預(yù)測方面存在局限,但整體性能通過多項優(yōu)化措施得到提升。該方法為多代理交通模擬提供了新的可能性,并公開代碼供研究者使用,為交通模擬領(lǐng)域的研究提供了有力基線方案。

三維語義分割挑戰(zhàn) 3D SEMANTIC SEGMENTATION CHALLENGE

1st:PTv3-EX

Xiaoyang Wu, Xiang Xu, Lingdong Kong, Liang Pan, Ziwei Liu, Tong He, Wanli Ouyang, Hengshuang Zhao - The Univeristy of Hong Kong, Shanghai AI Laboratory, National University of Singapore, Nanyang Technological University

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%201st%20Place%20-%20PTv3-EX.pdf

在2024年Waymo開放數(shù)據(jù)集挑戰(zhàn)賽中,Point Transformer V3 Extreme憑借其前沿的多幀訓(xùn)練(multi-frame training)和無裁剪點策略(no-clipping-point policy),在語義分割賽道中榮登榜首。該模型不僅通過即插即用訓(xùn)練和推理技術(shù)顯著提升了性能,還通過詳細(xì)的訓(xùn)練設(shè)置和策略優(yōu)化,充分利用了Waymo高分辨率LiDAR掃描和全面標(biāo)注數(shù)據(jù)的優(yōu)勢。Point Transformer V3 Extreme的成功展示了其在自動駕駛領(lǐng)域內(nèi)的技術(shù)實力和創(chuàng)新能力,為3D感知技術(shù)的發(fā)展提供了新的方向。該模型通過優(yōu)化backbone設(shè)計、引入數(shù)據(jù)增強(qiáng)技術(shù)和無裁剪點策略,提高了處理復(fù)雜現(xiàn)實世界環(huán)境數(shù)據(jù)的能力,為語義分割領(lǐng)域的研究和應(yīng)用提供了有價值的參考。此外,本文還探討了點云數(shù)據(jù)的序列化方法和多幀訓(xùn)練策略,強(qiáng)調(diào)了它們在提升點云處理性能中的關(guān)鍵作用。

2nd:MixSeg3D

Qing Wu - Marvell Technology

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%202nd%20Place%20-%20MixSeg3D.pdf

2024年Waymo開放數(shù)據(jù)集挑戰(zhàn)賽中,MixSeg3D以其獨特的3D語義分割解決方案榮獲第二名。該方法融合了MinkUNet稀疏卷積網(wǎng)絡(luò)和LaserMix、PolarMix兩種3D數(shù)據(jù)增強(qiáng)策略,有效提升了模型在復(fù)雜LiDAR點云數(shù)據(jù)中的感知能力。MixSeg3D不僅克服了訓(xùn)練數(shù)據(jù)多樣性不足的問題,還顯著提高了模型的泛化性和魯棒性,為自動駕駛技術(shù)的環(huán)境理解和導(dǎo)航提供了強(qiáng)有力的支持。MinkUNet以其高效的稀疏卷積操作和穩(wěn)健的特征提取能力,在處理大規(guī)模LiDAR點云數(shù)據(jù)時表現(xiàn)出色。而LaserMix和PolarMix的引入,進(jìn)一步增強(qiáng)了模型對未知數(shù)據(jù)的適應(yīng)能力。MixSeg3D的成功不僅為自動駕駛領(lǐng)域帶來了新的技術(shù)突破,也為未來的3D語義分割研究提供了新的思路和方法。

3rd:vFusedSeg3D

Osama Amjad, Ammad Nadeem - VisionRD

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%203rd%20Place%20-%20vFusedSeg3d.pdf

VFusedSeg3D是由VisionRD團(tuán)隊開發(fā)的多模態(tài)融合系統(tǒng),其利用相機(jī)和LiDAR數(shù)據(jù)的互補(bǔ)性,通過精心設(shè)計的網(wǎng)絡(luò)架構(gòu)在3D感知和分割精度上取得了顯著進(jìn)步。該系統(tǒng)結(jié)合了相機(jī)的豐富語義信息和LiDAR的精確深度感知,通過兩個并行特征提取流和創(chuàng)新的融合技術(shù),實現(xiàn)了對環(huán)境的全面理解。在驗證集上,VFusedSeg3D達(dá)到了72.46%的mIoU,樹立了新的性能基準(zhǔn)。

系統(tǒng)采用了DLA34作為圖像側(cè)的主干網(wǎng)絡(luò),并引入了改進(jìn)的語義特征聚合模塊(SFAM)和語義特征融合模塊(SFFM)來有效結(jié)合LiDAR和相機(jī)的特征。由于計算資源限制,系統(tǒng)采用了分階段訓(xùn)練策略,成功解決了高網(wǎng)格分辨率導(dǎo)致的內(nèi)存溢出問題。此外,通過全局變換和多種圖像增強(qiáng)技術(shù),增強(qiáng)了模型的泛化能力。總的來說,VFusedSeg3D以其高效的網(wǎng)絡(luò)結(jié)構(gòu)和多模態(tài)融合技術(shù),為需要精確環(huán)境感知的應(yīng)用提供了理想解決方案,展現(xiàn)了在3D感知領(lǐng)域的重要突破。

占用率和流量預(yù)測 OCCUPANCY FLOW CHALLENGE

1st:DOPP

Haochen Liu, Zhiyu Huang, Wenhui Huang, Haohan Yang, Xiaoyu Mo, Hongyang Gao, Chen Lv - Nanyang Technological University

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%201st%20Place%20-%20DOPP.pdf

本文提出并詳細(xì)闡述了一種創(chuàng)新的DOPP系統(tǒng)及其MS-OccFormer模塊,該模塊通過多階段對齊實現(xiàn)了高精度的占用流場預(yù)測,并結(jié)合了智能體邊際運(yùn)動預(yù)測的一致性意識。DOPP系統(tǒng)通過可微分的集成方式,有效提升了未來交通狀態(tài)預(yù)測的精度,特別是在處理復(fù)雜交通場景時展現(xiàn)出強(qiáng)大的能力。MS-OccFormer模塊則通過全局和局部交互,將占用預(yù)測和向后流預(yù)測與邊緣預(yù)測特征相結(jié)合,進(jìn)一步提升了預(yù)測精度。此外,該系統(tǒng)還采用了一種集成學(xué)習(xí)范式,持續(xù)更新預(yù)測目標(biāo),確保預(yù)測結(jié)果的連貫性和準(zhǔn)確性。這些創(chuàng)新技術(shù)不僅為自動駕駛系統(tǒng)的安全運(yùn)行提供了更為堅實的預(yù)測支持,同時也為處理多智能體預(yù)測中的一致性問題提供了新的解決方案。未來工作將圍繞進(jìn)一步優(yōu)化預(yù)測性能,解決運(yùn)動預(yù)測與占用預(yù)測不可解耦的挑戰(zhàn)展開。

2nd:STNet

Gaeun Kim, Daeil Han, YeongJun Koh, Hanul Kim - Seoul National University of Science and Technology, Chungnam National University

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%202nd%20Place%20-%20STNet.pdf

本文提出了一種創(chuàng)新的自動駕駛占用率和流量預(yù)測方法,該方法通過整合agent和靜態(tài)特征,利用一維時間卷積和時空編碼器構(gòu)建多尺度特征圖。該模型基于CAFormer-S18架構(gòu)改造而來,通過空間和時間信息的融合以及多尺度聚合,有效處理包含時間維度的數(shù)據(jù)。解碼器部分采用自回歸設(shè)計,結(jié)合雙線性插值和串聯(lián)操作,以自回歸方式預(yù)測未來幀。預(yù)測頭部分利用卷積層和激活函數(shù)生成占用和流圖,并通過多損失函數(shù)組合優(yōu)化預(yù)測性能。該方法在Waymo開放數(shù)據(jù)集挑戰(zhàn)中取得優(yōu)異成果,充分展示了其在自動駕駛領(lǐng)域中的有效性。通過多尺度的特征提取和自回歸的解碼設(shè)計,該模型為自動駕駛的準(zhǔn)確預(yù)測提供了強(qiáng)大的技術(shù)支持,對處理占用地圖和流動場預(yù)測問題具有重要意義。

3rd:HGNET

Zhan Chen, Chen Tang, Lu Xiong - Tongji University

鏈接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%203rd%20Place%20-%20HGNET.pdf

本文提出了一種創(chuàng)新的層次特征引導(dǎo)網(wǎng)絡(luò)(HGNET, hierarchical feature guided network),用于復(fù)雜交通場景中多智能體行為的預(yù)測。HGNET基于Transformer架構(gòu),通過高效的特征提取和多模態(tài)交互建模,有效整合了視覺、歷史軌跡和地圖信息,顯著提升了預(yù)測準(zhǔn)確性。其中,特征引導(dǎo)注意力模塊(FGAT)利用潛在引導(dǎo)效果,強(qiáng)化了特征間的相關(guān)性,而TimeSeries Memory框架則增強(qiáng)了預(yù)測的時間一致性和因果關(guān)系。HGNET在Waymo Open Motion Dataset 1上表現(xiàn)出色,尤其在占用流場軌跡預(yù)測方面。此外,該系統(tǒng)還通過LSTM和跨注意力Transformer編碼器,全面捕獲了交通代理與地圖間的交互關(guān)系,進(jìn)一步提升了預(yù)測性能。通過結(jié)合文本和視覺特征,以及引入層次特征引導(dǎo)解碼器,HGNET為自動駕駛領(lǐng)域提供了有力的技術(shù)支持,尤其在處理被遮擋障礙物和提高預(yù)測連續(xù)性方面展現(xiàn)出巨大潛力。

#BEVGPT

BEVGPT展示自動駕駛『全知視角』,預(yù)測決策規(guī)劃三合一!

預(yù)測、決策和運(yùn)動規(guī)劃對于自動駕駛至關(guān)重要。在大多數(shù)傳統(tǒng)算法架構(gòu)中,它們被視為單獨的模塊或組合成具有共享主干但獨立任務(wù)頭的多任務(wù)學(xué)習(xí)范例。然而,我們認(rèn)為理想的算法是將它們整合到一個綜合框架中,且這種整合過程不應(yīng)受到復(fù)雜的輸入表示(即輸入解耦)和冗余框架設(shè)計的困擾。為了解決上述問題,我們重新思考了自動駕駛?cè)蝿?wù)中各個模塊的必要性,并將所需的模塊納入到極簡的自動駕駛框架中。我們提出了BEVGPT,一種新的集成駕駛場景預(yù)測、決策和運(yùn)動規(guī)劃的生成式預(yù)訓(xùn)練模型。該模型以鳥瞰圖像(BEV)作為唯一輸入源,并根據(jù)周圍的交通場景做出駕駛決策。最后通過基于優(yōu)化的運(yùn)動規(guī)劃方法來保證駕駛軌跡的可行性和平滑性。

圖片

▲圖1|BEVGPT整體框架

如圖所示,BEVGPT采用兩階段訓(xùn)練過程。首先,我們使用大量自動駕駛數(shù)據(jù)來訓(xùn)練生成式大模型。隨后,使用自動駕駛仿真模擬器通過在線學(xué)習(xí)對模型進(jìn)行微調(diào)。具體來說,預(yù)訓(xùn)練階段的目標(biāo)是學(xué)習(xí)駕駛場景預(yù)測和決策,即自動駕駛?cè)蝿?wù)中的BEV生成和自車軌跡預(yù)測。該模型能夠輸出未來4秒內(nèi)的決策軌跡,并在長達(dá)6秒內(nèi)預(yù)測未來駕駛場景。接下來是在線微調(diào)階段,通過在線學(xué)習(xí)的方式實現(xiàn)模型微調(diào),從而保證符合動力學(xué)的運(yùn)動規(guī)劃和更為精確的BEV預(yù)測。在微調(diào)階段,運(yùn)動規(guī)劃器被設(shè)計為自動駕駛車輛生成平滑且可行的軌跡。

■2.1 框架設(shè)計

我們從人類駕駛員的角度重新評估每個模塊的必要性,以設(shè)計自動駕駛系統(tǒng)框架。首先,人類駕駛員對環(huán)境地圖有先驗的知識,比如在使用導(dǎo)航軟件時,每條道路的結(jié)構(gòu)和路口位置都比較明顯。其次,人類駕駛員并不會顯示地追蹤周圍的其他車輛,并預(yù)測它們的未來軌跡。相反,他們更關(guān)注的是預(yù)測的自車軌跡是否會被其他車輛所占據(jù)。然后,他們會做出相應(yīng)地駕駛決策。基于上述思考,我們設(shè)計了一個極簡的自動駕駛框架,即包括決策,運(yùn)動規(guī)劃和駕駛場景預(yù)測,而把目標(biāo)跟蹤以及他車運(yùn)動預(yù)測模塊去掉了。在該框架中,決策輸出的是自車未來T=4秒內(nèi)的位置,在motion planner進(jìn)一步處理后生成一個符合動力學(xué)和平滑的軌跡。考慮到靜態(tài)環(huán)境信息可以從高清地圖輕松獲取,我們更加關(guān)注包括車輛和行人在內(nèi)的動態(tài)物體的精確預(yù)測。駕駛場景預(yù)測通過環(huán)境地圖和動態(tài)物體預(yù)測的組合獲得,如下圖所示。

圖片

▲圖2|駕駛場景預(yù)測

■2.2 軌跡表示

我們采用分段多項式軌跡來表示我們的微分平坦輸出,即和。為了在后續(xù)的motion planning模塊中minimum Jerk,我們選擇五次多項式表示。假設(shè)軌跡總共由段組成。在這種情況下,便可以表示為下面的多項式:

這里的表示軌跡的段數(shù),每段具有相同的時間間隔。

■2.3 運(yùn)動規(guī)劃

在我們的軌跡規(guī)劃問題中,自車的初始狀態(tài)和末狀態(tài)已知。同時,決策模塊的輸出應(yīng)當(dāng)被包含在未來的軌跡中。另外,分段多項式軌跡的連續(xù)性也需要得到保證。因此,我們的運(yùn)動規(guī)劃問題被表達(dá)為了如下的minimum Jerk問題:

在這里,我們將自車的初始狀態(tài)和最終狀態(tài)考慮在內(nèi),同時確保了兩個相鄰軌跡段之間的連續(xù)性和光滑性,并且考慮了最大速度和最大加速度的限制,以確保動力學(xué)的可行性。

■3.1 數(shù)據(jù)集

我們采用了Lyft Level 5 Dataset,這是一個由Houston等人于2021年提出的自動駕駛數(shù)據(jù)集,包含了超過1000個小時的駕駛數(shù)據(jù),采集跨度4個月,采集車輛是由20輛車組成的車隊。關(guān)于數(shù)據(jù)處理,我們從數(shù)據(jù)集中提取車輛姿態(tài)、語義BEV圖像和靜態(tài)環(huán)境地圖圖像。去除持續(xù)時間短于24秒(即240幀,時間間隔秒)的駕駛情景。然后將自車的未來目標(biāo)位置作為決策訓(xùn)練的label。我們將每幀的車輛位置、當(dāng)前BEV圖像、下一幀BEV圖像和下一幀環(huán)境地圖圖像記錄下來作為訓(xùn)練數(shù)據(jù)集。

■3.2 模型架構(gòu)

GPT體系結(jié)構(gòu)在自然語言處理(NLP)領(lǐng)域取得了很大的進(jìn)展,它通過添加因果自關(guān)注掩碼來修改變壓器體系結(jié)構(gòu),從而自動回歸生成預(yù)測tokens。由于其強(qiáng)大的理解和泛化能力,我們采用GPT架構(gòu)來處理復(fù)雜的自動駕駛?cè)蝿?wù)和各種場景。我們的超參數(shù)如下表所示。

圖片

▲表1|BEVGPT超參數(shù)

■3.3 預(yù)訓(xùn)練

在預(yù)訓(xùn)練階段,BEVGPT進(jìn)行了20個epochs的訓(xùn)練。為了提高模型的決策能力和預(yù)測能力,這里使用均方誤差(MSE)作為Loss。

這里我們采用三角函數(shù)來平衡預(yù)測和決策的loss。

■3.4 在線微調(diào)

我們使用的是Woven Planet L5Kit進(jìn)行自動駕駛仿真,以微調(diào)預(yù)訓(xùn)練模型。BEV輸入模型后,輸出未來時間間隔內(nèi)的軌跡點。緊接著motion planner根據(jù)決策輸出生成動態(tài)可行的軌跡,而后得到BEV的預(yù)測?;乜瓷厦娴膌oss公式,模型要fine-tuning,需要地圖的信息,這里我們開發(fā)了一種經(jīng)驗光柵化器(experience rasterizer),以幫助模型獲得仿真駕駛場景的靜態(tài)信息。這里的出發(fā)點是一旦知道靜態(tài)全局地圖、自車的初始世界坐標(biāo)和世界坐標(biāo)與光柵坐標(biāo)之間的轉(zhuǎn)換,就可以將所有車道和交叉口輕松映射到光柵化的BEV圖像中。仿真器經(jīng)過時間間隔的仿真后,就可以獲得接下來BEV圖像的真實數(shù)據(jù)。這部分的loss如下:

因為這里仿真器是按照預(yù)測的軌跡進(jìn)行走的,所以軌跡那項的loss是0。我們使用Woven Planet L5Kit模擬器進(jìn)行在線微調(diào),以適應(yīng)運(yùn)動規(guī)劃和精確的BEV生成。

我們采用以下指標(biāo)來評估的模型的決策能力和運(yùn)動規(guī)劃能力:

●最終位移誤差指標(biāo)(FDE),指的是最終預(yù)測位置與參考位置之間的距離。

●平均位移誤差指標(biāo)(ADE),指的是時刻t之前所有預(yù)測位置與參考位置的均方誤差。

●最終距離參考軌跡的距離指標(biāo)(FDR),指的是時刻t預(yù)測位置與參考軌跡中最近點的距離。

●平均距離參考軌跡的距離指標(biāo)(ADR),指的是時刻之前所有預(yù)測位置與參考軌跡中其最近位置的均方誤差。

●L2誤差(L2),在仿真過程中執(zhí)行的軌跡和日志記錄中的真實位置之間的均方誤差。

●碰撞率(CR),它指的是模擬持續(xù)時間t內(nèi)發(fā)生碰撞幀與全部幀的比例。

●越野率(OR),它指的是駛離道路幀數(shù)與全部幀的比例。判斷指標(biāo)定義為參考軌跡與自車之間的距離大于2米。

評價結(jié)果如下表所示,結(jié)果顯示,我們提出的BEVGPT在決策和規(guī)劃任務(wù)中優(yōu)于許多現(xiàn)有的方案。

圖片

▲表2|實驗結(jié)果

未來我們將在極端情況下測試所提出方法的魯棒性,并進(jìn)一步改進(jìn)框架。未來研究的一個有潛力的方向是提高BEVGPT模型的實時性能,將其部署在自動駕駛汽車上。我們的目標(biāo)是帶來一個更安全、更可靠、更高效的自動駕駛框架。

#盤點CLIP系列模型泛化能力提升方面的研究

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以來,在多個領(lǐng)域展現(xiàn)了強(qiáng)大的跨模態(tài)泛化能力,比如在跨模態(tài)檢索、圖像搜索、圖像識別與分類等方面取得了顯著的研究成果。CLIP模型在預(yù)訓(xùn)練階段學(xué)習(xí)到的通用知識可以遷移到特定的下游任務(wù)中,這有助于在缺乏大量標(biāo)注數(shù)據(jù)的情況下,提升模型在新任務(wù)上的性能。CLIP的泛化能力使其能夠跨足不同的領(lǐng)域和任務(wù),如視頻行為識別,即使在沒有針對特定任務(wù)進(jìn)行過訓(xùn)練的情況下,也能夠表現(xiàn)出良好的性能。

為了將CLIP擴(kuò)展為多模態(tài)模型,從而能夠適用于多模態(tài)任務(wù),文章對CLIP進(jìn)行了多種“改造”:添加模態(tài)特定的編碼器從而將多模態(tài)信息輸入CLIP、在CLIP多模態(tài)編碼器中使用適配器、添加投影層將不同模態(tài)的特征映射到一個共同的特征空間、使用多任務(wù)解碼器同時處理多種類型的任務(wù)、利用掩碼語言模型來增強(qiáng)文本編碼器對其他模態(tài)描述的理解、設(shè)計有效的融合策略來結(jié)合不同模態(tài)的信息、利用注意力機(jī)制來選擇性地關(guān)注不同模態(tài)中與任務(wù)最相關(guān)的部分等。通過以上方法,CLIP可以被擴(kuò)展為一個強(qiáng)大的多模態(tài)模型,能夠處理包括圖像、視頻、文本和音頻在內(nèi)的多種數(shù)據(jù)類型,進(jìn)而在多模態(tài)學(xué)習(xí)和理解任務(wù)中展現(xiàn)出強(qiáng)大的泛化能力。

1 局部物體識別

重新思考low-shot CLIP 適配中的視覺內(nèi)容細(xì)化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

??https://arxiv.org/abs/2407.14117??

文章總結(jié)

最近的研究表明可以通過促進(jìn)知識有效轉(zhuǎn)移來提高對比視覺語言預(yù)訓(xùn)練(CLIP)的low-shot能力。然而,對原有模型的調(diào)整方法通常是在輸入圖像的全局視圖上操作的,因此對圖像的部分局部細(xì)節(jié)的感知是有偏差的。為了解決這個問題,我們提出了在測試階段的適應(yīng)計算之前進(jìn)行視覺內(nèi)容細(xì)化(VCR, Visual Content Refinement)。具體來說,我們首先將測試圖像分解為不同的比例,以將特征提取器的注意力轉(zhuǎn)移到圖像的細(xì)節(jié)上。然后,我們選擇每個尺度中具有最大預(yù)測邊際(max prediction margin)的圖像視圖,以過濾掉嘈雜的圖像視圖,其中預(yù)測邊際是根據(jù)預(yù)訓(xùn)練的 CLIP 模型計算的。最后,我們根據(jù)所選圖像視圖的比例合并其內(nèi)容,以構(gòu)建新的具有魯棒性的表示。因此,合并的內(nèi)容可以直接用于幫助適配器專注于全局和局部部分,而無需任何額外的訓(xùn)練參數(shù)。將本文的方法應(yīng)用于具有 13 個數(shù)據(jù)集的 3 個低樣本基準(zhǔn)任務(wù),取得了比最先進(jìn)方法的顯著改進(jìn)。例如,與少樣本分類任務(wù)的基線(Tip-Adapter)相比,本文的方法在免訓(xùn)練和需要訓(xùn)練的設(shè)置中平均實現(xiàn)了約2%的性能改進(jìn)。

模型解析

  • 本文的模型聚焦于圖像多尺度分解,即將測試圖像分解成不同的尺度(或稱為“視圖”),旨在使特征提取器能夠關(guān)注到圖像中的細(xì)節(jié)信息,通過多尺度分解,不同尺度的圖像視圖能夠捕捉到從全局到局部的多種特征。
  • 在每個尺度中選擇最具代表性的圖像視圖,即那些對分類任務(wù)貢獻(xiàn)最大的視圖,以過濾掉噪聲和冗余信息:使用預(yù)訓(xùn)練的 CLIP 模型對每個圖像視圖進(jìn)行預(yù)測,并計算其預(yù)測邊際。預(yù)測邊際反映了模型對特定類別的確信程度,通常通過最優(yōu)分類得分與次優(yōu)得分的差值來衡量。在每個尺度中,選擇具有最大預(yù)測邊際的圖像視圖。
  • 將不同尺度下選出的圖像視圖合并成一個新的表示,該表示既包含全局信息也包含重要的局部細(xì)節(jié):對于不同尺度下的細(xì)化特征,通過學(xué)習(xí)一個權(quán)重向量來實現(xiàn),該向量對不同尺度的特征給予不同的重視程度。將這些加權(quán)后的特征進(jìn)行合并,即將多個尺度的特征按照權(quán)重相加,形成一個統(tǒng)一的表示。
  • 這個新的表示可以用于免訓(xùn)練適配器(training-free adapter)或提示學(xué)習(xí)器(prompt learner),幫助模型更有效地理解和適應(yīng)不同的任務(wù)和數(shù)據(jù)。

該模型框架通過圖像的多尺度分解、基于預(yù)測邊際的圖像視圖選擇和圖像多視圖內(nèi)容的合并,有效地提升了低樣本 CLIP 適配的性能。

SAM2CLIP2SAM:3D CT 掃描分割的視覺語言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

??https://arxiv.org/abs/2407.15728??

文章總結(jié)

本文提出了一種圖像有效分割的新方法,可以集成到任何模型和方法中,對用于 Covid-19 檢測的醫(yī)學(xué)圖像(3D 胸部 CT 掃描)進(jìn)行分類。本文的方法包括視覺語言模型的組合,這些模型對 CT 掃描進(jìn)行分割,然后將其饋送到名為 RACNet 的深度神經(jīng)架構(gòu)中,用于 Covid-19 檢測。特別是,引入了一個名為 SAM2CLIP2SAM 的新框架進(jìn)行分割,該框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的優(yōu)勢,在 CT 掃描中準(zhǔn)確分割右肺和左肺,隨后將這些分割輸出輸入 RACNet,用于對 COVID-19 和非 COVID-19 病例進(jìn)行分類。首先,SAM 為 CT 掃描中的每個切片生成多個基于零件的分割模板;然后 CLIP 僅選擇與感興趣區(qū)域 (ROI, regions of interest) 相關(guān)的掩碼,即右肺和左肺;最后,SAM 被賦予這些 ROI 作為提示,并為肺部生成最終的分割掩碼。實驗使用了兩個 Covid-19 注釋的數(shù)據(jù)庫,這些數(shù)據(jù)庫說明了當(dāng)我們的方法用于 CT 掃描分割時實現(xiàn)了性能的改進(jìn)。

模型解析

  • 文章提出的模型框架名為SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)對CT掃描中的每一層(slice)進(jìn)行初步分割,生成多個基于部分的分割掩碼(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型從SAM生成的多個分割掩碼中選擇與感興趣區(qū)域(ROIs),即右肺和左肺,相關(guān)的掩碼。CLIP通過對比圖像和文本描述之間的相似性來實現(xiàn)這一目標(biāo),它能夠識別出與“右肺”和“左肺”描述最匹配的分割掩碼。再將CLIP選擇的ROIs作為提示(prompts)重新輸入給SAM,SAM根據(jù)這些ROIs生成針對右肺和左肺的最終精細(xì)化分割掩碼。
  • 這些分割后的圖像數(shù)據(jù)被輸入到RACNet中,RACNet是一個專門為處理3D CT掃描數(shù)據(jù)設(shè)計的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),包括一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)和一個遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。RACNet通過處理這些分割后的圖像數(shù)據(jù),提取相關(guān)特征,并基于這些特征對輸入進(jìn)行COVID-19和非COVID-19病例的分類。

該框架的創(chuàng)新之處在于它巧妙地結(jié)合了SAM在廣泛對象分割方面的強(qiáng)大能力和CLIP在理解圖像與文本之間關(guān)系方面的優(yōu)勢,實現(xiàn)了對CT掃描中特定區(qū)域(如肺部)的精確分割。隨后,通過RACNet對分割后的圖像數(shù)據(jù)進(jìn)行深入分析,提高了COVID-19診斷的準(zhǔn)確性和可靠性。

2 圖像生成

DiffX:指導(dǎo)布局進(jìn)行跨模態(tài)生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

??https://arxiv.org/abs/2407.15488??

文章總結(jié)

擴(kuò)散模型在文本驅(qū)動和布局驅(qū)動的圖像生成方面取得了重大進(jìn)展。但是,大多數(shù)擴(kuò)散模型僅限于生成可見的 RGB 圖像。事實上,人類對世界的感知因各種觀點而豐富,包括色差、熱照明和深度信息。本文介紹了一種用于一般布局引導(dǎo)的跨模態(tài)“RGB+X”生成的新型擴(kuò)散模型,稱為DiffX。首先使用LLaVA模型構(gòu)建帶有文本描述的跨模態(tài)圖像數(shù)據(jù)集,并輔以手動校正。值得注意的是,DiffX 提供了一個簡單而有效的跨模態(tài)生成建模管道,該管道在雙路徑變分自動編碼器 (DP-VAE) 的推動下,在模態(tài)共享的潛在空間中進(jìn)行擴(kuò)散和去噪過程。此外,結(jié)合了門控交叉注意力機(jī)制來連接布局和文本條件,利用 Long-CLIP 嵌入長字幕以增強(qiáng)用戶指導(dǎo)。通過廣泛的實驗,DiffX在各種布局類型的指導(dǎo)下,在三個RGB+X數(shù)據(jù)集(FLIR、MFNet和COME15K)上展示了跨模態(tài)生成的魯棒性和靈活性。它還顯示了自適應(yīng)生成“RGB+X+Y”或更多樣化模態(tài)的潛力。

模型解析

  • 文章首先使用LLaVA模型(一種用于圖像標(biāo)注的模型)來自動生成跨模態(tài)圖像數(shù)據(jù)集的文本描述,并輔以手動校正。
  • 然后利用DiffX模型進(jìn)行跨模態(tài)生成建模,該過程在模態(tài)共享的潛在空間中進(jìn)行擴(kuò)散和去噪。模型的核心是雙路徑變分自編碼器(DP-VAE),它允許在不同模態(tài)(如RGB和X)之間共享潛在表示,從而支持跨模態(tài)生成。
  • 為了連接布局和文本條件,DiffX模型結(jié)合了門控交叉注意力機(jī)制,有效地將布局信息和文本信息相結(jié)合,使模型能夠更準(zhǔn)確地理解用戶意圖和生成指導(dǎo)。為了進(jìn)一步增強(qiáng)用戶指導(dǎo),DiffX模型利用Long-CLIP來嵌入長字幕,從而能夠處理更長的文本描述,并將其轉(zhuǎn)換為有效的特征表示,這些特征表示被用于指導(dǎo)跨模態(tài)圖像的生成過程。

DiffX模型通過結(jié)合先進(jìn)的數(shù)據(jù)集構(gòu)建方法、跨模態(tài)生成建模、門控交叉注意力機(jī)制和Long-CLIP嵌入技術(shù),實現(xiàn)了有效的跨模態(tài)“RGB+X”圖像生成,展示了在更復(fù)雜的跨模態(tài)生成任務(wù)(如“RGB+X+Y”或更多樣化的模態(tài))中的潛力。

X-Former:MLLM的統(tǒng)一對比和重構(gòu)學(xué)習(xí)

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

??https://arxiv.org/abs/2407.13851??

文章總結(jié)

多模態(tài)大型語言模型 (MLLM) 的最新進(jìn)展通過將視覺感知能力集成到大型語言模型 (LLM) 中,徹底改變了視覺語言理解領(lǐng)域。該領(lǐng)域的流行趨勢涉及使用源自視覺語言對比學(xué)習(xí) (CL) 的視覺編碼器,在捕捉整體表征方面表現(xiàn)出專業(yè)知識,同時在捕捉詳細(xì)的局部模式方面面臨困難。這項工作專注于通過結(jié)合通過掩碼圖像建模 (MIM) 獲得的高頻和詳細(xì)視覺表示與?CL 捕獲的語義豐富的低頻表示增強(qiáng) MLLM 的視覺表示。為了實現(xiàn)這一目標(biāo),本文推出了X-Former,這是一種輕量級Transformer模塊,旨在通過創(chuàng)新的相互作用機(jī)制來利用CL和MIM的互補(bǔ)優(yōu)勢。具體來說,X-Former 首先從兩個凍結(jié)的視覺編碼器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中啟動視覺語言表示學(xué)習(xí)和多模態(tài)到多模態(tài)生成學(xué)習(xí)。它進(jìn)一步利用凍結(jié)的 LLM 進(jìn)行視覺到語言的生成學(xué)習(xí),以確保 X-Former 的視覺特征可以被 LLM 解釋。為了證明我們方法的有效性,我們評估了其在需要詳細(xì)視覺理解的任務(wù)中的性能。廣泛的評估表明,X-Former 在涉及 GQA 數(shù)據(jù)集中結(jié)構(gòu)和語義類別的視覺推理任務(wù)中表現(xiàn)出色。細(xì)粒度視覺感知基準(zhǔn)評估進(jìn)一步證實了其在視覺理解方面的卓越能力。

模型解析

  • 首先利用兩個凍結(jié)的視覺編碼器(CLIP-ViT和MAE-ViT)來引導(dǎo)視覺語言表示學(xué)習(xí),CLIP-ViT通過視覺語言對比學(xué)習(xí)策略進(jìn)行預(yù)訓(xùn)練,而MAE-ViT通過隨機(jī)掩碼圖像建模機(jī)制進(jìn)行訓(xùn)練,兩個視覺編碼器從輸入圖像文本對中提取視覺特征。為了整合這兩種視覺編碼器的信息,并同時學(xué)習(xí)全局和局部信息,引入了一個輕量級的Transformer模塊,稱為X-Former,它擴(kuò)展了Q-Former來整合全局和局部信息。
  • X-Former的輸入為一組可學(xué)習(xí)的query Z,輸入文本Tk和圖像特征(C, M)。第一個交叉注意塊采用MAE特征(M)作為query,Q-Former輸出(Zq)作為key和value,通過集成來自Q-Former的全局語義信息來對齊和增強(qiáng)M,從而豐富了MAE特征(M’)。隨后,M’通過交叉注意整合全局和局部信息,將Q-Former輸出(Zq)增強(qiáng)到Z '。
  • 增強(qiáng)查詢(Z ')根據(jù)圖像文本匹配(ITM)、圖像文本對比(ITC)和圖像文本生成(ITG)損失進(jìn)行了優(yōu)化。最后,將M′傳遞給凍結(jié)的MAE解碼器來重建被屏蔽的補(bǔ)丁。

X-Former是一個輕量級的Transformer模塊,它設(shè)計了一種創(chuàng)新的交互機(jī)制來利用對比學(xué)習(xí)(CL)和掩碼圖像建模(MIM)的互補(bǔ)優(yōu)勢。通過這種機(jī)制,X-Former能夠有效地融合CLIP-ViT和MAE-ViT的輸出,并生成既包含全局語義信息又包含詳細(xì)局部特征的視覺表示。

3 音頻生成

!盲文也能玩:盲文轉(zhuǎn)語音生成器-基于 CLIP 和 Fastspeech2 聯(lián)合微調(diào)的音頻生成

Chun Xu, En-Wei Sun

??https://arxiv.org/abs/2407.14212??

文章總結(jié)

越來越多的中國人受到不同程度的視覺障礙的困擾,這使得視野中的單個圖像或視頻幀與表達(dá)相同信息的音頻之間的模態(tài)轉(zhuǎn)換成為研究熱點。OCR+Vocoder 和 Im2Wav 等深度學(xué)習(xí)技術(shù)以自監(jiān)督的方式實現(xiàn)英語音頻合成或圖像到聲音的匹配。然而,用于培訓(xùn)的音頻數(shù)據(jù)有限,英語對于不同教育水平的視障人士來說并不通用。因此,為了解決數(shù)據(jù)量和語言適用性問題,提高視障人群的閱讀效率,構(gòu)建了一套基于中文語境的圖像轉(zhuǎn)語音框架CLIP-KNN-Fastspeech2。該框架整合了多個基礎(chǔ)模型,并采用了自主預(yù)訓(xùn)練和聯(lián)合微調(diào)的策略。首先,分別在MUGE和Baker兩個公共數(shù)據(jù)集上對中文CLIP和Fastspeech2文本轉(zhuǎn)語音模型進(jìn)行了預(yù)訓(xùn)練,并驗證了它們的收斂性。隨后,使用自建盲文圖像數(shù)據(jù)集進(jìn)行聯(lián)合微調(diào)。在VGGSound、Flickr8k、ImageHear等多個公共數(shù)據(jù)集和自建盲文數(shù)據(jù)集BIT-DP上的實驗結(jié)果表明,該模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客觀指標(biāo)上均有所提升,甚至推理速度也有所提升。這驗證了構(gòu)建的模型在有限的數(shù)據(jù)下仍然具有合成高質(zhì)量語音的能力,也證明了整合多個基礎(chǔ)模型的聯(lián)合訓(xùn)練策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架構(gòu)分為兩個主要階段:圖像到文本階段(image-to-text)和文本到語音階段(text-to-speech)。
  • 圖像到文本階段使用Chinese CLIP模型進(jìn)行自監(jiān)督學(xué)習(xí)和對比學(xué)習(xí),在MUGE等公開數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)圖像與文本對的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法從圖像中檢索出文本信息,KNN根據(jù)正負(fù)樣本之間的特征差異來提取文本。
  • 文本到語音階段使用Fastspeech2 文本轉(zhuǎn)語音模型,在Baker等公開數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)文本到語音的映射關(guān)系。輸入上一階段生成的文本,生成對應(yīng)的mel頻譜圖,并將其解碼為語音。

最后使用自建的盲文圖像數(shù)據(jù)集(Braille dataset)進(jìn)行聯(lián)合微調(diào)。

4 動作識別

M2-CLIP:一種用于視頻動作識別的多模態(tài)、多任務(wù)自適應(yīng)框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

??https://arxiv.org/abs/2401.11649??

文章總結(jié)

近年來,大規(guī)模視覺語言預(yù)訓(xùn)練模型(如CLIP)的興起,再加上參數(shù)高效微調(diào)(PEFT)技術(shù),在視頻動作識別領(lǐng)域引起了極大的關(guān)注。然而,流行的方法傾向于優(yōu)先考慮強(qiáng)大的監(jiān)督性能,代價是在遷移過程中損害模型的泛化能力。本文引入了一種名為M2-CLIP的新型多模態(tài)、多任務(wù)CLIP適應(yīng)框架來解決這些挑戰(zhàn),同時保持高監(jiān)督性能和魯棒可移植性。首先,為了增強(qiáng)單個模態(tài)體系結(jié)構(gòu),我們在可視化和文本分支中引入了多模態(tài)適配器。具體來說,文章設(shè)計了一種新的視覺TED適配器,它執(zhí)行全局時間增強(qiáng)和局部時間差分建模,以提高視覺編碼器的時間表示能力。此外,我們采用文本編碼器適配器來加強(qiáng)語義標(biāo)簽信息的學(xué)習(xí)。其次,文章設(shè)計了一個具有豐富監(jiān)督信號集的多任務(wù)解碼器,以熟練地滿足在多模態(tài)框架內(nèi)對強(qiáng)監(jiān)督性能和泛化的需求。實驗結(jié)果驗證了我們的方法的有效性,在監(jiān)督學(xué)習(xí)中表現(xiàn)出卓越的性能,同時在零樣本場景中保持了很強(qiáng)的泛化。

模型解析

  • M2-CLIP框架輸入為視頻V和文本標(biāo)簽y,視頻經(jīng)過視頻編碼器處理后,其特征在時間維度上進(jìn)行平均池化,得到最終的視頻表示v。文本標(biāo)簽經(jīng)過文本編碼器處理后,得到文本表示w。輸出為通過多任務(wù)解碼器得到的分類結(jié)果,可以用于監(jiān)督學(xué)習(xí)任務(wù)和零樣本分類任務(wù)。
  • M2-CLIP引入了多模態(tài)適配器,包括一個視覺TED-Adapter,用于改善視覺編碼器的時間表示能力,來實現(xiàn)全局時間增強(qiáng)(Temporal Enhancement)和局部時間差異(local temporal Difference)建模;以及一個文本編碼器適配器,用于加強(qiáng)學(xué)習(xí)語義標(biāo)簽信息。
  • M2-CLIP的多任務(wù)解碼器包括對比學(xué)習(xí)頭(Contrastive Learning Head),用于對齊視頻和文本表示的成對表示,使用對比學(xué)習(xí)損失進(jìn)行優(yōu)化;跨模態(tài)分類頭(Cross-Modal Classification Head, CMC),用于突出跨模態(tài)特征的判別能力,通過將問題轉(zhuǎn)化為1-C分類任務(wù)來增強(qiáng)跨模態(tài)相似性分?jǐn)?shù);跨模態(tài)掩碼語言模型頭(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一層設(shè)計,促進(jìn)視覺特征聚焦于動作動詞的識別,使用BERT掩碼語言模型頭來預(yù)測掩碼詞;視覺分類頭(Visual Classification Head, VC),在視覺分支末端引入,用于增強(qiáng)不同類別視頻特征的區(qū)分度,使用線性層進(jìn)行分類。

M2-CLIP框架能夠在保持高監(jiān)督性能的同時,實現(xiàn)強(qiáng)大的零樣本泛化能力。這得益于模型的多模態(tài)適配器和多任務(wù)解碼器,它們共同作用于視頻和文本的聯(lián)合表示學(xué)習(xí),并通過不同的學(xué)習(xí)任務(wù)來提升模型的語義對齊和類別區(qū)分能力。

細(xì)粒度知識圖譜驅(qū)動的視頻語言學(xué)習(xí),用于動作識別

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

??https://arxiv.org/abs/2407.14146??

文章總結(jié)

最近的工作已經(jīng)探索了視頻動作識別作為視頻-文本匹配問題,并提出了幾種基于大規(guī)模預(yù)訓(xùn)練視覺語言模型的有效方法。然而,這些方法主要在粗粒度的層面上運(yùn)行,而沒有通過利用動作和身體運(yùn)動之間的細(xì)粒度語義聯(lián)系來對動作概念進(jìn)行詳細(xì)的語義理解。為了解決這一差距,我們提出了一個由知識圖譜指導(dǎo)的對比視頻語言學(xué)習(xí)框架,稱為KG-CLIP,它將結(jié)構(gòu)化信息整合到視頻領(lǐng)域的CLIP模型中。具體來說,我們通過基于組合學(xué)習(xí)的解析動作,構(gòu)建了一個由多粒度概念組成的多模態(tài)知識圖譜。通過實現(xiàn)三元編碼器偏差補(bǔ)償來自適應(yīng)優(yōu)化實體距離函數(shù)中的邊際,我們的模型旨在改善知識圖譜中實體的對齊,以更好地適應(yīng)復(fù)雜的關(guān)系學(xué)習(xí)。這允許通過適應(yīng)圖形組件之間的細(xì)微關(guān)聯(lián)來增強(qiáng)視頻動作識別功能。我們在Kinetics-TPS(一個大規(guī)模的動作解析數(shù)據(jù)集)上全面評估了KG-CLIP,證明了其與競爭基線相比的有效性。特別是,我們的方法在樣本幀少或訓(xùn)練數(shù)據(jù)有限的情況下,在動作識別方面表現(xiàn)出色,表現(xiàn)出優(yōu)異的數(shù)據(jù)利用和學(xué)習(xí)能力。

模型解析

  • KG-CLIP通過解析視頻內(nèi)容(如動作、場景、物體等)和相關(guān)的文本描述(如動作標(biāo)簽、句子描述等),構(gòu)建了一個多模態(tài)知識圖譜。這個圖譜不僅包含了視頻中的視覺元素(如動作、身體部位的運(yùn)動),還包含了它們之間的語義關(guān)系和上下文信息(如動作描述、概念標(biāo)簽等)。在構(gòu)建好知識圖譜后,KG-CLIP將其與CLIP模型進(jìn)行融合。通過擴(kuò)展CLIP模型的輸入層,使其能夠接收知識圖譜中的結(jié)構(gòu)化信息(如實體嵌入、關(guān)系向量等),以在視頻領(lǐng)域?qū)崿F(xiàn)更高效的視頻-文本匹配。
  • 然后利用CLIP模型的視覺編碼器部分,從視頻中提取出豐富的視覺特征,包括視頻中的基本元素(如顏色、紋理、形狀等),及更高級別的語義信息(如動作、場景等)。
  • KG-CLIP用一個三元編碼器捕捉三元組中的實體和關(guān)系信息,它接收知識圖譜中的三元組作為輸入,并輸出每個實體和關(guān)系的向量表示(如<頭實體, 關(guān)系, 尾實體>)。這些向量表示隨后被用于計算實體之間的距離和相似性。
  • KG-CLIP引入了偏差補(bǔ)償機(jī)制,根據(jù)實體的具體特征和它們之間的關(guān)系,動態(tài)調(diào)整距離函數(shù)中的參數(shù)。這樣KG-CLIP能夠更準(zhǔn)確地衡量實體之間的相似性和差異性,從而提高模型的整體性能。

KG-CLIP通過一系列創(chuàng)新性的設(shè)計(如知識圖譜構(gòu)建、三元編碼器實現(xiàn)、偏差補(bǔ)償機(jī)制等),成功地將結(jié)構(gòu)化信息整合到CLIP模型中,并在視頻動作識別等任務(wù)中取得了顯著的性能提升。

5 零樣本異常檢測

AnomalyCLIP:用于零樣本異常檢測的對象識別提示學(xué)習(xí)

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

??https://arxiv.org/abs/2310.18961??

文章總結(jié)

最近,大型預(yù)訓(xùn)練視覺語言模型 (VLM),例如 CLIP,在包括異常檢測在內(nèi)的各種視覺任務(wù)中展示了強(qiáng)大的零樣本識別能力。然而,它們的零樣本異常檢測(ZSAD)性能較弱,因為VLM更側(cè)重于對前景對象(foreground objects)的類語義進(jìn)行建模,而不是圖像中的異常/正常性(abnormality/normality)。本文引入了一種新的方法,即AnomalyCLIP,使CLIP在不同領(lǐng)域中實現(xiàn)準(zhǔn)確的ZSAD。AnomalyCLIP 的關(guān)鍵是學(xué)習(xí)與對象無關(guān)的文本提示,這些文本提示會捕獲圖像中的一般正常性和異常性,而不管其前景對象如何。這使我們的模型能夠?qū)W⒂诋惓D像區(qū)域而不是對象語義,從而能夠?qū)Σ煌愋偷膶ο筮M(jìn)行廣義正常性和異常識別。在17個真實世界異常檢測數(shù)據(jù)集上的大規(guī)模實驗表明,AnomalyCLIP在各種缺陷檢測和醫(yī)學(xué)成像領(lǐng)域的高度多樣化的類別語義數(shù)據(jù)集中實現(xiàn)了卓越的零樣本檢測和分割異常性能。

模型解析

  • AnomalyCLIP設(shè)計了兩種通用的與對象無關(guān)文本提示(Object-Agnostic Text Prompts)模板:一種用于正常性(normality),另一種用于異常性(abnormality)。這些提示模板不包含具體對象的語義,而是專注于捕獲圖像中的異常模式,無論前景對象是什么。
  • 然后進(jìn)行全局上下文優(yōu)化和局部上下文優(yōu)化:通過交叉熵?fù)p失函數(shù),將對象無關(guān)的文本嵌入與輔助數(shù)據(jù)中正常/異常圖像的視覺嵌入進(jìn)行匹配,以捕獲全局特征中的正常/異常語義。通過焦點損失(Focal Loss)和Dice損失,優(yōu)化文本提示以關(guān)注視覺編碼器中間層的細(xì)粒度、局部異常區(qū)域。
  • 通過在CLIP文本編碼器的每一層添加可學(xué)習(xí)的標(biāo)記嵌入(token embeddings),來精細(xì)化原始文本空間,使其更適合異常檢測任務(wù)。通過引入對角突出的注意力圖(Diagonally Prominent Attention Map, DPAM)來改進(jìn)局部視覺空間,使得注意力圖更加關(guān)注局部視覺語義,從而提高異常檢測的準(zhǔn)確性。AnomalyCLIP整合了來自視覺編碼器多個中間層的特征,以提供更多的局部視覺細(xì)節(jié),增強(qiáng)模型對異常區(qū)域的識別能力。

AdaCLIP:使用混合可學(xué)習(xí)提示的自適應(yīng)CLIP用于零樣本異常檢測

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

??https://arxiv.org/abs/2407.15795??

文章總結(jié)

零樣本異常檢測(ZSAD)的目標(biāo)是從任意新穎的類別中識別圖像中的異常。本研究引入AdaCLIP用于ZSAD任務(wù),利用預(yù)訓(xùn)練的視覺語言模型(VLM)CLIP。AdaCLIP將可學(xué)習(xí)的提示整合到CLIP中,并通過在輔助注釋的異常檢測數(shù)據(jù)上進(jìn)行訓(xùn)練來優(yōu)化它們。AdaCLIP引入了兩種類型的可學(xué)習(xí)提示:靜態(tài)提示和動態(tài)提示。靜態(tài)提示在所有圖像中共享,用于初步調(diào)整CLIP以適應(yīng)ZSAD。相比之下,為每個測試圖像生成動態(tài)提示,為CLIP提供動態(tài)自適應(yīng)功能。靜態(tài)和動態(tài)提示的組合稱為混合提示,可提高ZSAD性能。在工業(yè)和醫(yī)療領(lǐng)域的14個真實世界的異常檢測數(shù)據(jù)集上進(jìn)行的廣泛實驗表明,AdaCLIP優(yōu)于其他ZSAD方法,可以更好地推廣到不同的類別甚至領(lǐng)域。最后,我們的分析強(qiáng)調(diào)了多樣化輔助數(shù)據(jù)和優(yōu)化提示對于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了兩種類型的提示——靜態(tài)提示(Static Prompts)和動態(tài)提示(Dynamic Prompts)。靜態(tài)提示在所有圖像中共享,它們在訓(xùn)練過程中從輔助數(shù)據(jù)中學(xué)習(xí),用于初步調(diào)整CLIP模型以適應(yīng)ZSAD任務(wù)。動態(tài)提示是針對每個測試圖像生成的,它們提供了模型對不同圖像的動態(tài)適應(yīng)能力。將靜態(tài)和動態(tài)提示結(jié)合起來,形成混合提示,這樣可以提高模型對新類別圖像的異常檢測性能。
  • 為了解決CLIP原始架構(gòu)中圖像嵌入(Patch Embeddings)與文本嵌入維度不匹配的問題,AdaCLIP添加了一個投影層來對齊這些嵌入的維度,并通過引入偏差的線性層增加了一些可學(xué)習(xí)的參數(shù),以進(jìn)一步微調(diào)CLIP。
  • AdaCLIP還引入了混合語義融合模塊(Hybrid Semantic Fusion, HSF)用于改善像素級別的異常檢測。首先AdaCLIP利用CLIP模型的不同層次的輸出來生成異常圖(Anomaly Maps,基于圖像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之間的余弦相似度計算得到。每個層次的異常圖反映了圖像中不同區(qū)域的異常程度。然后混合語義融合模塊使用KMeans++算法對來自不同層次的異常圖中的嵌入進(jìn)行聚類。這些聚類假設(shè)代表了圖像中的不同區(qū)域,其中具有最高平均異常分?jǐn)?shù)的聚類可能對應(yīng)于異常區(qū)域。最后將這些異常圖融合成一個最終的預(yù)測,從而更準(zhǔn)確地定位和識別圖像中的異常區(qū)域。

綜上,AdaCLIP通過計算圖像嵌入和文本嵌入之間的余弦相似度來確定異常分?jǐn)?shù),這些分?jǐn)?shù)表示圖像及其像素是否正?;虍惓?。

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以來,在多個領(lǐng)域展現(xiàn)了強(qiáng)大的跨模態(tài)泛化能力,比如在跨模態(tài)檢索、圖像搜索、圖像識別與分類等方面取得了顯著的研究成果。CLIP模型在預(yù)訓(xùn)練階段學(xué)習(xí)到的通用知識可以遷移到特定的下游任務(wù)中,這有助于在缺乏大量標(biāo)注數(shù)據(jù)的情況下,提升模型在新任務(wù)上的性能。CLIP的泛化能力使其能夠跨足不同的領(lǐng)域和任務(wù),如視頻行為識別,即使在沒有針對特定任務(wù)進(jìn)行過訓(xùn)練的情況下,也能夠表現(xiàn)出良好的性能。本文總結(jié)了CLIP的幾大經(jīng)典應(yīng)用場景,并梳理了近期發(fā)布的一些公眾:在局部物體識別、圖像生成、音頻生成、動作識別和零樣本異常檢測多個領(lǐng)域的泛化能力。

為了將CLIP擴(kuò)展為多模態(tài)模型,從而能夠適用于多模態(tài)任務(wù),文章對CLIP進(jìn)行了多種“改造”:添加模態(tài)特定的編碼器從而將多模態(tài)信息輸入CLIP、在CLIP多模態(tài)編碼器中使用適配器、添加投影層將不同模態(tài)的特征映射到一個共同的特征空間、使用多任務(wù)解碼器同時處理多種類型的任務(wù)、利用掩碼語言模型來增強(qiáng)文本編碼器對其他模態(tài)描述的理解、設(shè)計有效的融合策略來結(jié)合不同模態(tài)的信息、利用注意力機(jī)制來選擇性地關(guān)注不同模態(tài)中與任務(wù)最相關(guān)的部分等。通過以上方法,CLIP可以被擴(kuò)展為一個強(qiáng)大的多模態(tài)模型,能夠處理包括圖像、視頻、文本和音頻在內(nèi)的多種數(shù)據(jù)類型,進(jìn)而在多模態(tài)學(xué)習(xí)和理解任務(wù)中展現(xiàn)出強(qiáng)大的泛化能力。

1 局部物體識別

重新思考low-shot CLIP 適配中的視覺內(nèi)容細(xì)化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

??https://arxiv.org/abs/2407.14117??

文章總結(jié)

最近的研究表明可以通過促進(jìn)知識有效轉(zhuǎn)移來提高對比視覺語言預(yù)訓(xùn)練(CLIP)的low-shot能力。然而,對原有模型的調(diào)整方法通常是在輸入圖像的全局視圖上操作的,因此對圖像的部分局部細(xì)節(jié)的感知是有偏差的。為了解決這個問題,我們提出了在測試階段的適應(yīng)計算之前進(jìn)行視覺內(nèi)容細(xì)化(VCR, Visual Content Refinement)。具體來說,我們首先將測試圖像分解為不同的比例,以將特征提取器的注意力轉(zhuǎn)移到圖像的細(xì)節(jié)上。然后,我們選擇每個尺度中具有最大預(yù)測邊際(max prediction margin)的圖像視圖,以過濾掉嘈雜的圖像視圖,其中預(yù)測邊際是根據(jù)預(yù)訓(xùn)練的 CLIP 模型計算的。最后,我們根據(jù)所選圖像視圖的比例合并其內(nèi)容,以構(gòu)建新的具有魯棒性的表示。因此,合并的內(nèi)容可以直接用于幫助適配器專注于全局和局部部分,而無需任何額外的訓(xùn)練參數(shù)。將本文的方法應(yīng)用于具有 13 個數(shù)據(jù)集的 3 個低樣本基準(zhǔn)任務(wù),取得了比最先進(jìn)方法的顯著改進(jìn)。例如,與少樣本分類任務(wù)的基線(Tip-Adapter)相比,本文的方法在免訓(xùn)練和需要訓(xùn)練的設(shè)置中平均實現(xiàn)了約2%的性能改進(jìn)。

模型解析

  • 本文的模型聚焦于圖像多尺度分解,即將測試圖像分解成不同的尺度(或稱為“視圖”),旨在使特征提取器能夠關(guān)注到圖像中的細(xì)節(jié)信息,通過多尺度分解,不同尺度的圖像視圖能夠捕捉到從全局到局部的多種特征。
  • 在每個尺度中選擇最具代表性的圖像視圖,即那些對分類任務(wù)貢獻(xiàn)最大的視圖,以過濾掉噪聲和冗余信息:使用預(yù)訓(xùn)練的 CLIP 模型對每個圖像視圖進(jìn)行預(yù)測,并計算其預(yù)測邊際。預(yù)測邊際反映了模型對特定類別的確信程度,通常通過最優(yōu)分類得分與次優(yōu)得分的差值來衡量。在每個尺度中,選擇具有最大預(yù)測邊際的圖像視圖。
  • 將不同尺度下選出的圖像視圖合并成一個新的表示,該表示既包含全局信息也包含重要的局部細(xì)節(jié):對于不同尺度下的細(xì)化特征,通過學(xué)習(xí)一個權(quán)重向量來實現(xiàn),該向量對不同尺度的特征給予不同的重視程度。將這些加權(quán)后的特征進(jìn)行合并,即將多個尺度的特征按照權(quán)重相加,形成一個統(tǒng)一的表示。
  • 這個新的表示可以用于免訓(xùn)練適配器(training-free adapter)或提示學(xué)習(xí)器(prompt learner),幫助模型更有效地理解和適應(yīng)不同的任務(wù)和數(shù)據(jù)。

該模型框架通過圖像的多尺度分解、基于預(yù)測邊際的圖像視圖選擇和圖像多視圖內(nèi)容的合并,有效地提升了低樣本 CLIP 適配的性能。

SAM2CLIP2SAM:3D CT 掃描分割的視覺語言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

??https://arxiv.org/abs/2407.15728??

文章總結(jié)

本文提出了一種圖像有效分割的新方法,可以集成到任何模型和方法中,對用于 Covid-19 檢測的醫(yī)學(xué)圖像(3D 胸部 CT 掃描)進(jìn)行分類。本文的方法包括視覺語言模型的組合,這些模型對 CT 掃描進(jìn)行分割,然后將其饋送到名為 RACNet 的深度神經(jīng)架構(gòu)中,用于 Covid-19 檢測。特別是,引入了一個名為 SAM2CLIP2SAM 的新框架進(jìn)行分割,該框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的優(yōu)勢,在 CT 掃描中準(zhǔn)確分割右肺和左肺,隨后將這些分割輸出輸入 RACNet,用于對 COVID-19 和非 COVID-19 病例進(jìn)行分類。首先,SAM 為 CT 掃描中的每個切片生成多個基于零件的分割模板;然后 CLIP 僅選擇與感興趣區(qū)域 (ROI, regions of interest) 相關(guān)的掩碼,即右肺和左肺;最后,SAM 被賦予這些 ROI 作為提示,并為肺部生成最終的分割掩碼。實驗使用了兩個 Covid-19 注釋的數(shù)據(jù)庫,這些數(shù)據(jù)庫說明了當(dāng)我們的方法用于 CT 掃描分割時實現(xiàn)了性能的改進(jìn)。

模型解析

  • 文章提出的模型框架名為SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)對CT掃描中的每一層(slice)進(jìn)行初步分割,生成多個基于部分的分割掩碼(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型從SAM生成的多個分割掩碼中選擇與感興趣區(qū)域(ROIs),即右肺和左肺,相關(guān)的掩碼。CLIP通過對比圖像和文本描述之間的相似性來實現(xiàn)這一目標(biāo),它能夠識別出與“右肺”和“左肺”描述最匹配的分割掩碼。再將CLIP選擇的ROIs作為提示(prompts)重新輸入給SAM,SAM根據(jù)這些ROIs生成針對右肺和左肺的最終精細(xì)化分割掩碼。
  • 這些分割后的圖像數(shù)據(jù)被輸入到RACNet中,RACNet是一個專門為處理3D CT掃描數(shù)據(jù)設(shè)計的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),包括一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)和一個遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。RACNet通過處理這些分割后的圖像數(shù)據(jù),提取相關(guān)特征,并基于這些特征對輸入進(jìn)行COVID-19和非COVID-19病例的分類。

該框架的創(chuàng)新之處在于它巧妙地結(jié)合了SAM在廣泛對象分割方面的強(qiáng)大能力和CLIP在理解圖像與文本之間關(guān)系方面的優(yōu)勢,實現(xiàn)了對CT掃描中特定區(qū)域(如肺部)的精確分割。隨后,通過RACNet對分割后的圖像數(shù)據(jù)進(jìn)行深入分析,提高了COVID-19診斷的準(zhǔn)確性和可靠性。

2 圖像生成

DiffX:指導(dǎo)布局進(jìn)行跨模態(tài)生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

??https://arxiv.org/abs/2407.15488??

文章總結(jié)

擴(kuò)散模型在文本驅(qū)動和布局驅(qū)動的圖像生成方面取得了重大進(jìn)展。但是,大多數(shù)擴(kuò)散模型僅限于生成可見的 RGB 圖像。事實上,人類對世界的感知因各種觀點而豐富,包括色差、熱照明和深度信息。本文介紹了一種用于一般布局引導(dǎo)的跨模態(tài)“RGB+X”生成的新型擴(kuò)散模型,稱為DiffX。首先使用LLaVA模型構(gòu)建帶有文本描述的跨模態(tài)圖像數(shù)據(jù)集,并輔以手動校正。值得注意的是,DiffX 提供了一個簡單而有效的跨模態(tài)生成建模管道,該管道在雙路徑變分自動編碼器 (DP-VAE) 的推動下,在模態(tài)共享的潛在空間中進(jìn)行擴(kuò)散和去噪過程。此外,結(jié)合了門控交叉注意力機(jī)制來連接布局和文本條件,利用 Long-CLIP 嵌入長字幕以增強(qiáng)用戶指導(dǎo)。通過廣泛的實驗,DiffX在各種布局類型的指導(dǎo)下,在三個RGB+X數(shù)據(jù)集(FLIR、MFNet和COME15K)上展示了跨模態(tài)生成的魯棒性和靈活性。它還顯示了自適應(yīng)生成“RGB+X+Y”或更多樣化模態(tài)的潛力。

模型解析

  • 文章首先使用LLaVA模型(一種用于圖像標(biāo)注的模型)來自動生成跨模態(tài)圖像數(shù)據(jù)集的文本描述,并輔以手動校正。
  • 然后利用DiffX模型進(jìn)行跨模態(tài)生成建模,該過程在模態(tài)共享的潛在空間中進(jìn)行擴(kuò)散和去噪。模型的核心是雙路徑變分自編碼器(DP-VAE),它允許在不同模態(tài)(如RGB和X)之間共享潛在表示,從而支持跨模態(tài)生成。
  • 為了連接布局和文本條件,DiffX模型結(jié)合了門控交叉注意力機(jī)制,有效地將布局信息和文本信息相結(jié)合,使模型能夠更準(zhǔn)確地理解用戶意圖和生成指導(dǎo)。為了進(jìn)一步增強(qiáng)用戶指導(dǎo),DiffX模型利用Long-CLIP來嵌入長字幕,從而能夠處理更長的文本描述,并將其轉(zhuǎn)換為有效的特征表示,這些特征表示被用于指導(dǎo)跨模態(tài)圖像的生成過程。

DiffX模型通過結(jié)合先進(jìn)的數(shù)據(jù)集構(gòu)建方法、跨模態(tài)生成建模、門控交叉注意力機(jī)制和Long-CLIP嵌入技術(shù),實現(xiàn)了有效的跨模態(tài)“RGB+X”圖像生成,展示了在更復(fù)雜的跨模態(tài)生成任務(wù)(如“RGB+X+Y”或更多樣化的模態(tài))中的潛力。

X-Former:MLLM的統(tǒng)一對比和重構(gòu)學(xué)習(xí)

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

??https://arxiv.org/abs/2407.13851??

文章總結(jié)

多模態(tài)大型語言模型 (MLLM) 的最新進(jìn)展通過將視覺感知能力集成到大型語言模型 (LLM) 中,徹底改變了視覺語言理解領(lǐng)域。該領(lǐng)域的流行趨勢涉及使用源自視覺語言對比學(xué)習(xí) (CL) 的視覺編碼器,在捕捉整體表征方面表現(xiàn)出專業(yè)知識,同時在捕捉詳細(xì)的局部模式方面面臨困難。這項工作專注于通過結(jié)合通過掩碼圖像建模 (MIM) 獲得的高頻和詳細(xì)視覺表示與?CL 捕獲的語義豐富的低頻表示增強(qiáng) MLLM 的視覺表示。為了實現(xiàn)這一目標(biāo),本文推出了X-Former,這是一種輕量級Transformer模塊,旨在通過創(chuàng)新的相互作用機(jī)制來利用CL和MIM的互補(bǔ)優(yōu)勢。具體來說,X-Former 首先從兩個凍結(jié)的視覺編碼器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中啟動視覺語言表示學(xué)習(xí)和多模態(tài)到多模態(tài)生成學(xué)習(xí)。它進(jìn)一步利用凍結(jié)的 LLM 進(jìn)行視覺到語言的生成學(xué)習(xí),以確保 X-Former 的視覺特征可以被 LLM 解釋。為了證明我們方法的有效性,我們評估了其在需要詳細(xì)視覺理解的任務(wù)中的性能。廣泛的評估表明,X-Former 在涉及 GQA 數(shù)據(jù)集中結(jié)構(gòu)和語義類別的視覺推理任務(wù)中表現(xiàn)出色。細(xì)粒度視覺感知基準(zhǔn)評估進(jìn)一步證實了其在視覺理解方面的卓越能力。

模型解析

  • 首先利用兩個凍結(jié)的視覺編碼器(CLIP-ViT和MAE-ViT)來引導(dǎo)視覺語言表示學(xué)習(xí),CLIP-ViT通過視覺語言對比學(xué)習(xí)策略進(jìn)行預(yù)訓(xùn)練,而MAE-ViT通過隨機(jī)掩碼圖像建模機(jī)制進(jìn)行訓(xùn)練,兩個視覺編碼器從輸入圖像文本對中提取視覺特征。為了整合這兩種視覺編碼器的信息,并同時學(xué)習(xí)全局和局部信息,引入了一個輕量級的Transformer模塊,稱為X-Former,它擴(kuò)展了Q-Former來整合全局和局部信息。
  • X-Former的輸入為一組可學(xué)習(xí)的query Z,輸入文本Tk和圖像特征(C, M)。第一個交叉注意塊采用MAE特征(M)作為query,Q-Former輸出(Zq)作為key和value,通過集成來自Q-Former的全局語義信息來對齊和增強(qiáng)M,從而豐富了MAE特征(M’)。隨后,M’通過交叉注意整合全局和局部信息,將Q-Former輸出(Zq)增強(qiáng)到Z '。
  • 增強(qiáng)查詢(Z ')根據(jù)圖像文本匹配(ITM)、圖像文本對比(ITC)和圖像文本生成(ITG)損失進(jìn)行了優(yōu)化。最后,將M′傳遞給凍結(jié)的MAE解碼器來重建被屏蔽的補(bǔ)丁。

X-Former是一個輕量級的Transformer模塊,它設(shè)計了一種創(chuàng)新的交互機(jī)制來利用對比學(xué)習(xí)(CL)和掩碼圖像建模(MIM)的互補(bǔ)優(yōu)勢。通過這種機(jī)制,X-Former能夠有效地融合CLIP-ViT和MAE-ViT的輸出,并生成既包含全局語義信息又包含詳細(xì)局部特征的視覺表示。

3 音頻生成

!盲文也能玩:盲文轉(zhuǎn)語音生成器-基于 CLIP 和 Fastspeech2 聯(lián)合微調(diào)的音頻生成

Chun Xu, En-Wei Sun

??https://arxiv.org/abs/2407.14212??

文章總結(jié)

越來越多的中國人受到不同程度的視覺障礙的困擾,這使得視野中的單個圖像或視頻幀與表達(dá)相同信息的音頻之間的模態(tài)轉(zhuǎn)換成為研究熱點。OCR+Vocoder 和 Im2Wav 等深度學(xué)習(xí)技術(shù)以自監(jiān)督的方式實現(xiàn)英語音頻合成或圖像到聲音的匹配。然而,用于培訓(xùn)的音頻數(shù)據(jù)有限,英語對于不同教育水平的視障人士來說并不通用。因此,為了解決數(shù)據(jù)量和語言適用性問題,提高視障人群的閱讀效率,構(gòu)建了一套基于中文語境的圖像轉(zhuǎn)語音框架CLIP-KNN-Fastspeech2。該框架整合了多個基礎(chǔ)模型,并采用了自主預(yù)訓(xùn)練和聯(lián)合微調(diào)的策略。首先,分別在MUGE和Baker兩個公共數(shù)據(jù)集上對中文CLIP和Fastspeech2文本轉(zhuǎn)語音模型進(jìn)行了預(yù)訓(xùn)練,并驗證了它們的收斂性。隨后,使用自建盲文圖像數(shù)據(jù)集進(jìn)行聯(lián)合微調(diào)。在VGGSound、Flickr8k、ImageHear等多個公共數(shù)據(jù)集和自建盲文數(shù)據(jù)集BIT-DP上的實驗結(jié)果表明,該模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客觀指標(biāo)上均有所提升,甚至推理速度也有所提升。這驗證了構(gòu)建的模型在有限的數(shù)據(jù)下仍然具有合成高質(zhì)量語音的能力,也證明了整合多個基礎(chǔ)模型的聯(lián)合訓(xùn)練策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架構(gòu)分為兩個主要階段:圖像到文本階段(image-to-text)和文本到語音階段(text-to-speech)。
  • 圖像到文本階段使用Chinese CLIP模型進(jìn)行自監(jiān)督學(xué)習(xí)和對比學(xué)習(xí),在MUGE等公開數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)圖像與文本對的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法從圖像中檢索出文本信息,KNN根據(jù)正負(fù)樣本之間的特征差異來提取文本。
  • 文本到語音階段使用Fastspeech2 文本轉(zhuǎn)語音模型,在Baker等公開數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)文本到語音的映射關(guān)系。輸入上一階段生成的文本,生成對應(yīng)的mel頻譜圖,并將其解碼為語音。

最后使用自建的盲文圖像數(shù)據(jù)集(Braille dataset)進(jìn)行聯(lián)合微調(diào)。

4 動作識別

M2-CLIP:一種用于視頻動作識別的多模態(tài)、多任務(wù)自適應(yīng)框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

??https://arxiv.org/abs/2401.11649??

文章總結(jié)

近年來,大規(guī)模視覺語言預(yù)訓(xùn)練模型(如CLIP)的興起,再加上參數(shù)高效微調(diào)(PEFT)技術(shù),在視頻動作識別領(lǐng)域引起了極大的關(guān)注。然而,流行的方法傾向于優(yōu)先考慮強(qiáng)大的監(jiān)督性能,代價是在遷移過程中損害模型的泛化能力。本文引入了一種名為M2-CLIP的新型多模態(tài)、多任務(wù)CLIP適應(yīng)框架來解決這些挑戰(zhàn),同時保持高監(jiān)督性能和魯棒可移植性。首先,為了增強(qiáng)單個模態(tài)體系結(jié)構(gòu),我們在可視化和文本分支中引入了多模態(tài)適配器。具體來說,文章設(shè)計了一種新的視覺TED適配器,它執(zhí)行全局時間增強(qiáng)和局部時間差分建模,以提高視覺編碼器的時間表示能力。此外,我們采用文本編碼器適配器來加強(qiáng)語義標(biāo)簽信息的學(xué)習(xí)。其次,文章設(shè)計了一個具有豐富監(jiān)督信號集的多任務(wù)解碼器,以熟練地滿足在多模態(tài)框架內(nèi)對強(qiáng)監(jiān)督性能和泛化的需求。實驗結(jié)果驗證了我們的方法的有效性,在監(jiān)督學(xué)習(xí)中表現(xiàn)出卓越的性能,同時在零樣本場景中保持了很強(qiáng)的泛化。

模型解析

  • M2-CLIP框架輸入為視頻V和文本標(biāo)簽y,視頻經(jīng)過視頻編碼器處理后,其特征在時間維度上進(jìn)行平均池化,得到最終的視頻表示v。文本標(biāo)簽經(jīng)過文本編碼器處理后,得到文本表示w。輸出為通過多任務(wù)解碼器得到的分類結(jié)果,可以用于監(jiān)督學(xué)習(xí)任務(wù)和零樣本分類任務(wù)。
  • M2-CLIP引入了多模態(tài)適配器,包括一個視覺TED-Adapter,用于改善視覺編碼器的時間表示能力,來實現(xiàn)全局時間增強(qiáng)(Temporal Enhancement)和局部時間差異(local temporal Difference)建模;以及一個文本編碼器適配器,用于加強(qiáng)學(xué)習(xí)語義標(biāo)簽信息。
  • M2-CLIP的多任務(wù)解碼器包括對比學(xué)習(xí)頭(Contrastive Learning Head),用于對齊視頻和文本表示的成對表示,使用對比學(xué)習(xí)損失進(jìn)行優(yōu)化;跨模態(tài)分類頭(Cross-Modal Classification Head, CMC),用于突出跨模態(tài)特征的判別能力,通過將問題轉(zhuǎn)化為1-C分類任務(wù)來增強(qiáng)跨模態(tài)相似性分?jǐn)?shù);跨模態(tài)掩碼語言模型頭(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一層設(shè)計,促進(jìn)視覺特征聚焦于動作動詞的識別,使用BERT掩碼語言模型頭來預(yù)測掩碼詞;視覺分類頭(Visual Classification Head, VC),在視覺分支末端引入,用于增強(qiáng)不同類別視頻特征的區(qū)分度,使用線性層進(jìn)行分類。

M2-CLIP框架能夠在保持高監(jiān)督性能的同時,實現(xiàn)強(qiáng)大的零樣本泛化能力。這得益于模型的多模態(tài)適配器和多任務(wù)解碼器,它們共同作用于視頻和文本的聯(lián)合表示學(xué)習(xí),并通過不同的學(xué)習(xí)任務(wù)來提升模型的語義對齊和類別區(qū)分能力。

細(xì)粒度知識圖譜驅(qū)動的視頻語言學(xué)習(xí),用于動作識別

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

??https://arxiv.org/abs/2407.14146??

文章總結(jié)

最近的工作已經(jīng)探索了視頻動作識別作為視頻-文本匹配問題,并提出了幾種基于大規(guī)模預(yù)訓(xùn)練視覺語言模型的有效方法。然而,這些方法主要在粗粒度的層面上運(yùn)行,而沒有通過利用動作和身體運(yùn)動之間的細(xì)粒度語義聯(lián)系來對動作概念進(jìn)行詳細(xì)的語義理解。為了解決這一差距,我們提出了一個由知識圖譜指導(dǎo)的對比視頻語言學(xué)習(xí)框架,稱為KG-CLIP,它將結(jié)構(gòu)化信息整合到視頻領(lǐng)域的CLIP模型中。具體來說,我們通過基于組合學(xué)習(xí)的解析動作,構(gòu)建了一個由多粒度概念組成的多模態(tài)知識圖譜。通過實現(xiàn)三元編碼器偏差補(bǔ)償來自適應(yīng)優(yōu)化實體距離函數(shù)中的邊際,我們的模型旨在改善知識圖譜中實體的對齊,以更好地適應(yīng)復(fù)雜的關(guān)系學(xué)習(xí)。這允許通過適應(yīng)圖形組件之間的細(xì)微關(guān)聯(lián)來增強(qiáng)視頻動作識別功能。我們在Kinetics-TPS(一個大規(guī)模的動作解析數(shù)據(jù)集)上全面評估了KG-CLIP,證明了其與競爭基線相比的有效性。特別是,我們的方法在樣本幀少或訓(xùn)練數(shù)據(jù)有限的情況下,在動作識別方面表現(xiàn)出色,表現(xiàn)出優(yōu)異的數(shù)據(jù)利用和學(xué)習(xí)能力。

模型解析

  • KG-CLIP通過解析視頻內(nèi)容(如動作、場景、物體等)和相關(guān)的文本描述(如動作標(biāo)簽、句子描述等),構(gòu)建了一個多模態(tài)知識圖譜。這個圖譜不僅包含了視頻中的視覺元素(如動作、身體部位的運(yùn)動),還包含了它們之間的語義關(guān)系和上下文信息(如動作描述、概念標(biāo)簽等)。在構(gòu)建好知識圖譜后,KG-CLIP將其與CLIP模型進(jìn)行融合。通過擴(kuò)展CLIP模型的輸入層,使其能夠接收知識圖譜中的結(jié)構(gòu)化信息(如實體嵌入、關(guān)系向量等),以在視頻領(lǐng)域?qū)崿F(xiàn)更高效的視頻-文本匹配。
  • 然后利用CLIP模型的視覺編碼器部分,從視頻中提取出豐富的視覺特征,包括視頻中的基本元素(如顏色、紋理、形狀等),及更高級別的語義信息(如動作、場景等)。
  • KG-CLIP用一個三元編碼器捕捉三元組中的實體和關(guān)系信息,它接收知識圖譜中的三元組作為輸入,并輸出每個實體和關(guān)系的向量表示(如<頭實體, 關(guān)系, 尾實體>)。這些向量表示隨后被用于計算實體之間的距離和相似性。
  • KG-CLIP引入了偏差補(bǔ)償機(jī)制,根據(jù)實體的具體特征和它們之間的關(guān)系,動態(tài)調(diào)整距離函數(shù)中的參數(shù)。這樣KG-CLIP能夠更準(zhǔn)確地衡量實體之間的相似性和差異性,從而提高模型的整體性能。

KG-CLIP通過一系列創(chuàng)新性的設(shè)計(如知識圖譜構(gòu)建、三元編碼器實現(xiàn)、偏差補(bǔ)償機(jī)制等),成功地將結(jié)構(gòu)化信息整合到CLIP模型中,并在視頻動作識別等任務(wù)中取得了顯著的性能提升。

5 零樣本異常檢測

AnomalyCLIP:用于零樣本異常檢測的對象識別提示學(xué)習(xí)

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

??https://arxiv.org/abs/2310.18961??

文章總結(jié)

最近,大型預(yù)訓(xùn)練視覺語言模型 (VLM),例如 CLIP,在包括異常檢測在內(nèi)的各種視覺任務(wù)中展示了強(qiáng)大的零樣本識別能力。然而,它們的零樣本異常檢測(ZSAD)性能較弱,因為VLM更側(cè)重于對前景對象(foreground objects)的類語義進(jìn)行建模,而不是圖像中的異常/正常性(abnormality/normality)。本文引入了一種新的方法,即AnomalyCLIP,使CLIP在不同領(lǐng)域中實現(xiàn)準(zhǔn)確的ZSAD。AnomalyCLIP 的關(guān)鍵是學(xué)習(xí)與對象無關(guān)的文本提示,這些文本提示會捕獲圖像中的一般正常性和異常性,而不管其前景對象如何。這使我們的模型能夠?qū)W⒂诋惓D像區(qū)域而不是對象語義,從而能夠?qū)Σ煌愋偷膶ο筮M(jìn)行廣義正常性和異常識別。在17個真實世界異常檢測數(shù)據(jù)集上的大規(guī)模實驗表明,AnomalyCLIP在各種缺陷檢測和醫(yī)學(xué)成像領(lǐng)域的高度多樣化的類別語義數(shù)據(jù)集中實現(xiàn)了卓越的零樣本檢測和分割異常性能。

模型解析

  • AnomalyCLIP設(shè)計了兩種通用的與對象無關(guān)文本提示(Object-Agnostic Text Prompts)模板:一種用于正常性(normality),另一種用于異常性(abnormality)。這些提示模板不包含具體對象的語義,而是專注于捕獲圖像中的異常模式,無論前景對象是什么。
  • 然后進(jìn)行全局上下文優(yōu)化和局部上下文優(yōu)化:通過交叉熵?fù)p失函數(shù),將對象無關(guān)的文本嵌入與輔助數(shù)據(jù)中正常/異常圖像的視覺嵌入進(jìn)行匹配,以捕獲全局特征中的正常/異常語義。通過焦點損失(Focal Loss)和Dice損失,優(yōu)化文本提示以關(guān)注視覺編碼器中間層的細(xì)粒度、局部異常區(qū)域。
  • 通過在CLIP文本編碼器的每一層添加可學(xué)習(xí)的標(biāo)記嵌入(token embeddings),來精細(xì)化原始文本空間,使其更適合異常檢測任務(wù)。通過引入對角突出的注意力圖(Diagonally Prominent Attention Map, DPAM)來改進(jìn)局部視覺空間,使得注意力圖更加關(guān)注局部視覺語義,從而提高異常檢測的準(zhǔn)確性。AnomalyCLIP整合了來自視覺編碼器多個中間層的特征,以提供更多的局部視覺細(xì)節(jié),增強(qiáng)模型對異常區(qū)域的識別能力。

AdaCLIP:使用混合可學(xué)習(xí)提示的自適應(yīng)CLIP用于零樣本異常檢測

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

??https://arxiv.org/abs/2407.15795??

文章總結(jié)

零樣本異常檢測(ZSAD)的目標(biāo)是從任意新穎的類別中識別圖像中的異常。本研究引入AdaCLIP用于ZSAD任務(wù),利用預(yù)訓(xùn)練的視覺語言模型(VLM)CLIP。AdaCLIP將可學(xué)習(xí)的提示整合到CLIP中,并通過在輔助注釋的異常檢測數(shù)據(jù)上進(jìn)行訓(xùn)練來優(yōu)化它們。AdaCLIP引入了兩種類型的可學(xué)習(xí)提示:靜態(tài)提示和動態(tài)提示。靜態(tài)提示在所有圖像中共享,用于初步調(diào)整CLIP以適應(yīng)ZSAD。相比之下,為每個測試圖像生成動態(tài)提示,為CLIP提供動態(tài)自適應(yīng)功能。靜態(tài)和動態(tài)提示的組合稱為混合提示,可提高ZSAD性能。在工業(yè)和醫(yī)療領(lǐng)域的14個真實世界的異常檢測數(shù)據(jù)集上進(jìn)行的廣泛實驗表明,AdaCLIP優(yōu)于其他ZSAD方法,可以更好地推廣到不同的類別甚至領(lǐng)域。最后,我們的分析強(qiáng)調(diào)了多樣化輔助數(shù)據(jù)和優(yōu)化提示對于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了兩種類型的提示——靜態(tài)提示(Static Prompts)和動態(tài)提示(Dynamic Prompts)。靜態(tài)提示在所有圖像中共享,它們在訓(xùn)練過程中從輔助數(shù)據(jù)中學(xué)習(xí),用于初步調(diào)整CLIP模型以適應(yīng)ZSAD任務(wù)。動態(tài)提示是針對每個測試圖像生成的,它們提供了模型對不同圖像的動態(tài)適應(yīng)能力。將靜態(tài)和動態(tài)提示結(jié)合起來,形成混合提示,這樣可以提高模型對新類別圖像的異常檢測性能。
  • 為了解決CLIP原始架構(gòu)中圖像嵌入(Patch Embeddings)與文本嵌入維度不匹配的問題,AdaCLIP添加了一個投影層來對齊這些嵌入的維度,并通過引入偏差的線性層增加了一些可學(xué)習(xí)的參數(shù),以進(jìn)一步微調(diào)CLIP。
  • AdaCLIP還引入了混合語義融合模塊(Hybrid Semantic Fusion, HSF)用于改善像素級別的異常檢測。首先AdaCLIP利用CLIP模型的不同層次的輸出來生成異常圖(Anomaly Maps,基于圖像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之間的余弦相似度計算得到。每個層次的異常圖反映了圖像中不同區(qū)域的異常程度。然后混合語義融合模塊使用KMeans++算法對來自不同層次的異常圖中的嵌入進(jìn)行聚類。這些聚類假設(shè)代表了圖像中的不同區(qū)域,其中具有最高平均異常分?jǐn)?shù)的聚類可能對應(yīng)于異常區(qū)域。最后將這些異常圖融合成一個最終的預(yù)測,從而更準(zhǔn)確地定位和識別圖像中的異常區(qū)域。

綜上,AdaCLIP通過計算圖像嵌入和文本嵌入之間的余弦相似度來確定異常分?jǐn)?shù),這些分?jǐn)?shù)表示圖像及其像素是否正常或異常。

#Wayve的端到端進(jìn)化到哪一步了?

www.youtube.com/watch?v=a_q3Efh6-5E&ab_channel=Wayve?

Structure

Traditional AV stack 1.0

AV1.0

這是一個需要比較大成本的系統(tǒng),目前也沒有一家公司真正做到了。

  • 高精地圖(高精地圖建圖&依賴高精度傳感器建圖)
  • 數(shù)據(jù)標(biāo)記

AV 2.0(Wayve)

  • 算法易于部署在不同傳感器芯片移植(computationally homogeneous)
  • 數(shù)據(jù)驅(qū)動(Generalisation through data)
  • 無圖方案成本低,泛化性高(scalable and economic)
  • 安全(outperforms hand-coded solutions)

case處理?

Frontiers in Embodied AI Research

Simulation

端到端的仿真需要模擬出視覺信息,這是非常困難的,總結(jié)一些Wayve的工作:

  • 縮小了預(yù)測和行為的gap
  • 動態(tài)物體和可形變的物體模擬
  • 模擬出整個環(huán)境和平臺
  • 數(shù)據(jù)驅(qū)動&可移植
  • 長尾問題

Ghost Gym: A Neural Simulator for AD

??https://wayve.ai/thinking/ghost-gym-neural-simulator/??

閉環(huán)的仿真器

PRISM-1

動態(tài)場景重建模型

自監(jiān)督,4D,Non-parametric scene representation

??https://wayve.ai/thinking/prism-1??

實時重建

水坑反射和行人踩自行車

這個水坑和動態(tài)的踩自行車真的牛。。。而且是4d重建,不是一個簡單的動畫。

而且用正弦曲線去擾亂,也能保證生成的場景很完美,甚至能保證生成的行人也不漂移,甚至還拿著雨傘。

訓(xùn)練場景集:https://wayve.ai/science/wayvescenes101/

重建出來的行人都不失真

不止能重建世界,也能生成一些多樣化的場景(所有data driven的優(yōu)勢)

Wayve GAIA(2023)- Generative World Model

arxiv.org/abs/2403.02622

World Models for Autonomous Driving: An Initial Survey

arxiv.org/abs/2403.02622

World Models for Autonomous Driving: An Initial Survey

GAIA還可以添加objects,并且做標(biāo)記(動態(tài)的)?

Multimodality

LLM4Drive: A Survey of Large Language Models for Autonomous Driving

Lingo1: https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/

Lingo-1

Lingo2: https://wayve.ai/thinking/lingo-2-driving-with-language/

更注重實際駕駛,不僅在駕駛,而且在解釋。

這里的解釋行為也比較重要,這里根據(jù)不同場景改變了駕駛計劃。?

Foundation Models

A Model that is trained on a diverse set of data that can be adaped to a wide range of downstream tasks.

一些挑戰(zhàn)

#又一家新勢力危了!引入華為技術(shù)卻沒能拯救

“銀十”落幕,本該歡歡喜喜交上成績單之時,卻又有一家新勢力被曝出降薪裁員。

遠(yuǎn)航汽車大運(yùn)集團(tuán)旗下的高端新能源品牌。

雖然品牌知名度不高,但更早之前因為設(shè)計上的原因,有過幾次出圈熱議。其中最熱鬧的一次,還是在小米造車之后,被誤當(dāng)作小米SU7的“原型車”。

但現(xiàn)在,同屬新勢力的兩家已然無法同日而語。

小米SU7已經(jīng)實現(xiàn)了2萬輛每月的驚人交付,開啟了智能化賽道上的新一輪競速。

而遠(yuǎn)航汽車,則被曝出人員流失嚴(yán)重、延遲發(fā)工資,底盤研發(fā)部門甚至只剩下十多名員工還在堅守。

在對外回應(yīng)中,遠(yuǎn)航汽車也表示正在進(jìn)行戰(zhàn)略調(diào)整,目前處于重組狀態(tài),但是否還能再上牌桌,競速智能化,答案已經(jīng)變得飄渺動蕩了。

以及令人感慨的是,遠(yuǎn)航汽車及其母公司大運(yùn)集團(tuán)并非不重視技術(shù)、不重視智能化,甚至還引入了華為智能車相關(guān)業(yè)務(wù)作為供應(yīng)商。

但大運(yùn)集團(tuán)沒有復(fù)刻小康集團(tuán)的路線,遠(yuǎn)航也沒有創(chuàng)造賽力斯一樣的佳話。

遠(yuǎn)航汽車的困境,折射的是智能汽車轉(zhuǎn)型期里,稍縱即逝的窗口時間。

一步慢,步步慢,再想跟上,難于登天。

遠(yuǎn)航汽車降薪裁員

消息已經(jīng)遮蓋不住,最近新能源車企遠(yuǎn)航汽車,被傳出延遲發(fā)放工資,人員流失嚴(yán)重,甚至強(qiáng)制休假的消息。

有自稱遠(yuǎn)航內(nèi)部研發(fā)的員工還爆料說,公司底盤研發(fā)部門人員流失速度快,目前只剩下十多名員工

還有員工透露,所在部門的員工已被強(qiáng)制休假一周,并且沒有通知復(fù)崗時間,待崗期間公司也沒有提供工資和補(bǔ)償。

并且公司的資金狀況較為緊張,目前正在尋求新的融資,以及地方資金的支持。

另外還有門店銷售人員透露,公司從6月份開始就出現(xiàn)了工資延遲發(fā)放,7月的工資延遲了2個月才發(fā)放。

第一財經(jīng)向遠(yuǎn)航汽車求證后,官方回應(yīng)中也確認(rèn)了傳聞中的動蕩:

公司正在進(jìn)行戰(zhàn)略調(diào)整,目前處于重組狀態(tài),過一段時間等調(diào)整完成會恢復(fù)正常。遠(yuǎn)航汽車畢竟背靠大運(yùn)集團(tuán),不會輕易倒閉。目前,高管、中層職員都是正常在職狀態(tài)。

所以不論是爆料還是官方的回應(yīng),基本證實了遠(yuǎn)航的處境。

作為一家名不見經(jīng)傳的新能源造車品牌,遠(yuǎn)航實際上不常出現(xiàn)在公眾視野,其采用的推進(jìn)戰(zhàn)略,也相對更為傳統(tǒng),但即便如此,因為遠(yuǎn)航汽車在設(shè)計等方面的特點,還陰差陽錯上過幾次熱搜。

如今這樣的局面,多少有些可惜可嘆。

遠(yuǎn)航汽車是誰?

說到遠(yuǎn)航汽車,可能聽起來有些陌生,但他的母公司大運(yùn)集團(tuán),可謂是家喻戶曉。

一句“風(fēng)馳電掣,大運(yùn)摩托”,喚醒了多少人的回憶。

遠(yuǎn)航汽車,就是大運(yùn)集團(tuán)的高端新能源汽車品牌,2022年8月首次面世,在新勢力中也是新秀。

大運(yùn)集團(tuán)早在1987年成立,本身是靠摩托車業(yè)務(wù)起家。

但隨著市場需求的變化,以及國內(nèi)越來越多地區(qū)禁摩,大運(yùn)意識到,如果繼續(xù)把摩托車當(dāng)作主導(dǎo)產(chǎn)業(yè),企業(yè)規(guī)模也會受到限制。

所以從2004年,大運(yùn)開始進(jìn)軍商用汽車行業(yè),先后涉足重卡、中卡和輕卡領(lǐng)域,從2009年投產(chǎn)以來,產(chǎn)銷量保持行業(yè)前十的位置。

從摩托車跨越到汽車,這次轉(zhuǎn)型可以說非常成功,也給大運(yùn)增添了很多信心。

所以到2016年,大運(yùn)緊跟著“綠色發(fā)展”布局,把目光轉(zhuǎn)向新能源汽車,啟動了新能源商用車戰(zhàn)略,又在2017年轉(zhuǎn)戰(zhàn)新能源乘用車。

2022年,遠(yuǎn)航品牌問世,瞄準(zhǔn)了30萬-60萬元級的高端市場。

22年年底的成都車展上,遠(yuǎn)航帶著產(chǎn)品首次亮相,一口氣發(fā)布了兩款豪華轎車遠(yuǎn)航Y(jié)6、遠(yuǎn)航Y(jié)7,以及兩款豪華SUV,遠(yuǎn)航H8遠(yuǎn)航H9

為了打響招牌,加深消費(fèi)者對遠(yuǎn)航的“高端品牌”印象,遠(yuǎn)航選擇和博世、華為、阿里斑馬合作,聯(lián)合打造了B.H.D高端純電平臺。

不過,轉(zhuǎn)型重卡的成功例子,并沒有在遠(yuǎn)航汽車身上重現(xiàn)。

遠(yuǎn)航汽車的困境

自2022年推出四款車型之后,遠(yuǎn)航再沒有推出新的產(chǎn)品。

按照當(dāng)前的指導(dǎo)價,價格相對最低的是遠(yuǎn)航Y(jié)6,指導(dǎo)價是26.98-33.98萬,最貴的是遠(yuǎn)航H9,指導(dǎo)價40.98-51.98萬。

而現(xiàn)有的四款車型,去年11月開始批售,實際上只有遠(yuǎn)航Y(jié)6和遠(yuǎn)航H8在售,并且銷售情況也不算樂觀。

根據(jù)中汽協(xié)數(shù)據(jù)顯示,遠(yuǎn)航汽車今年9月銷售779臺車,1-9月累計銷量為5584臺。

在如今,其他新勢力動輒月銷幾萬臺的背景下,這樣的銷量顯然不在一個量級。即便是高端品牌,也不及阿維塔這樣的銷量水平。

銷量跟不上,即便價高,想要活得好也會有阻力,被曝出資金緊缺就不算奇怪了。

遠(yuǎn)航汽車為何有如今的困境?

首先是品牌的宣傳度不夠

據(jù)爆料的員工表示,除了車展、高鐵和機(jī)場廣告,其他地方幾乎沒有任何營銷方式。

遠(yuǎn)航也很少舉辦發(fā)布會和試駕活動,市場了解的途徑有限,因此與之相關(guān)的報道也比較少,在汽車行業(yè)甚至稱得上神秘。

其次,遠(yuǎn)航汽車的產(chǎn)品車型比較單薄

盡管成立之初,遠(yuǎn)航就一口氣推出了四款車型,但在這之后的兩年,新的車型再沒有動靜,而且只有四款車型中,只有兩款在售。

也許大運(yùn)并沒有意識到,重卡市場與新能源汽車市場,實際上有非常大的不同。

在當(dāng)前,新能源車企技術(shù)相互競速,新產(chǎn)品層出不窮,并且已經(jīng)在全方位的“卷”,包括配置、服務(wù)、營銷,“卷”得沒有死角。

在這個汽車產(chǎn)品飛速迭代的時間段,遠(yuǎn)航的速度,走得有些太慢。

談到技術(shù),這也是遠(yuǎn)航最大的“痛點”。

因為遠(yuǎn)航的“靈魂”,基本上都是砸錢買來的。

大運(yùn)董事長遠(yuǎn)勤山曾表示過,遠(yuǎn)航不需要太多技術(shù),自己搞先進(jìn)技術(shù),可能十年也趕不上博世、華為現(xiàn)在的水平,所以要把最優(yōu)秀的融合在一起,直接買來再整合。

因此在技術(shù)上,遠(yuǎn)航汽車擁有華為智能車控域控制器VDC、熱管理系統(tǒng)TMS 2.0,以華為智能轉(zhuǎn)向系統(tǒng)。

博世合作了一體化底盤集成技術(shù)、高功率電橋等等,又選用了斑馬智行的智能駕駛、智能交互技術(shù)。

但這樣的模式,在智能化的下半場很難立足。

其一,是一步慢步步慢,遠(yuǎn)航H8搭載的是高通8155芯片,而零跑、銀河等車型,已經(jīng)搭載了算力更強(qiáng)的高通8295芯片,落后也意味著失去競爭力。

其二,自研趨勢越來越明顯,像理想、蔚來這樣的頭部新勢力,都在開始加大自研的力度,適應(yīng)更快節(jié)奏的智能汽車競爭。

但知人論世,往往都是事后才能給出的分析了。

畢竟百年汽車工業(yè),強(qiáng)調(diào)自研成功的車廠有,遠(yuǎn)的不說,近如特斯拉,就是最典型的案例。

也有依靠供應(yīng)商合作伙伴成功的品牌,比如賽力斯,同樣作為傳統(tǒng)不高端汽車品牌的小康,在新能源和智能化浪潮中,率先并緊緊抱住了華為,從產(chǎn)品設(shè)計、核心技術(shù)到營銷,統(tǒng)統(tǒng)讓華為發(fā)揮能力,自己制作好制造一項,最終實現(xiàn)了珠聯(lián)璧合下的成功,不僅產(chǎn)品創(chuàng)造了銷量神話,品牌成功完成高端化轉(zhuǎn)型,還拿到了競速下一階段的入場券。

從最初被汽車圈“群嘲”,到后來越來越多人“理解賽力斯,成為賽力斯”……療效就是最直接的證明。

然而,即便遠(yuǎn)航汽車這樣的玩家,現(xiàn)如今理解了賽力斯,也可能很難成為賽力斯了,畢竟到處落子下界的華為,忙不過來了。

#ChatTracker

即插即用:多模態(tài)大模型重塑目標(biāo)跟蹤

視覺對象跟蹤旨在基于初始邊界框在視頻序列中定位目標(biāo)對象。最近,視覺語言(VL)跟蹤器已經(jīng)提出利用額外的自然語言描述來增強(qiáng)各種應(yīng)用中的通用性。然而,VL跟蹤器在跟蹤性能方面仍然不如最先進(jìn)的視覺跟蹤器(SoTA)。我們發(fā)現(xiàn),這種劣勢主要是由于他們嚴(yán)重依賴手動文本注釋,其中包括頻繁提供模糊的語言描述。在本文中,我們提出了ChatTracker,利用多模態(tài)大語言模型(MLLM)中豐富的世界知識來生成高質(zhì)量的語言描述并提高跟蹤性能。為此,我們提出了一種新的基于反射的提示優(yōu)化模塊,通過跟蹤反饋迭代地改進(jìn)目標(biāo)的模糊和不準(zhǔn)確的描述。為了進(jìn)一步利用MLLM產(chǎn)生的語義信息,提出了一種簡單而有效的VL跟蹤框架,該框架可以很容易地集成為即插即用模塊,以提高VL和視覺跟蹤器的性能。實驗結(jié)果表明,我們提出的ChatTracker實現(xiàn)了與現(xiàn)有方法相當(dāng)?shù)男阅堋?/p>

總結(jié)來說,本文的主要貢獻(xiàn)如下:

  1. 我們提出了ChatTracker,這是一種利用MLLM進(jìn)行視覺對象跟蹤的新框架。據(jù)我們所知,這是將MLLM納入跟蹤框架的第一項工作。它為現(xiàn)有的視覺和VL跟蹤器提供了即插即用的模塊增強(qiáng)功能,計算開銷有限。
  2. 我們引入了一個基于反射的提示優(yōu)化(RPO)模塊,以縮小VL跟蹤器和MLLM之間的知識差距。通過反思跟蹤反饋,RPO模塊可以迭代優(yōu)化MLLM的提示,最終為跟蹤目標(biāo)生成準(zhǔn)確和相關(guān)的描述。與數(shù)據(jù)集中的人工標(biāo)注文本相比,這些描述在跟蹤性能和圖像文本對齊方面都更優(yōu)越。
  3. 我們提出的ChatTracker在多個跟蹤數(shù)據(jù)集上實現(xiàn)了SoTA性能。我們進(jìn)行了廣泛的實驗,包括消融研究,以證明所提出的方法及其各個模塊的有效性。

相關(guān)工作回顧

Vision-Language Trackers視覺語言跟蹤方法Zhou等人、Ma和Wu等人探索了使用語言線索來增強(qiáng)視覺對象跟蹤。這些方法可以根據(jù)其文本來源進(jìn)行分類:使用手動注釋文本的方法和從預(yù)定義詞典生成描述的方法。在第一類中,手動注釋文本已被廣泛用于目標(biāo)跟蹤任務(wù)。LaSoT、TNL2K和MGIT等數(shù)據(jù)集為每個序列提供了手動注釋的語言描述。SNLT跟蹤器利用視覺和語言描述來預(yù)測目標(biāo)狀態(tài),然后動態(tài)組合這些預(yù)測以產(chǎn)生最終結(jié)果。JointNLT將視覺基礎(chǔ)和自然語言引導(dǎo)的跟蹤相結(jié)合,有效地滿足了這兩個過程的不同要求。第二類利用預(yù)定義的詞典生成語言描述。CiteTracker精心開發(fā)了一個類別詞匯表,其中包括目標(biāo)的顏色、紋理和材料等屬性。在跟蹤過程中,它使用CLIP來比較圖像和文本之間的相似性,選擇與圖像非常匹配的文本作為目標(biāo)的描述。與這些方法相反,我們的工作專門采用MLLM來獲取目標(biāo)的精確文本描述。這種方法有效地消除了對手動文本注釋或預(yù)定義詞典的依賴。

Large Language Model in Vision Tasks

大語言模型(LLM),如ChatGPT和Llama是在廣泛的互聯(lián)網(wǎng)規(guī)模文本上訓(xùn)練的自回歸模型。它們在權(quán)重中包含了廣泛的世界知識。最近,GPT-4V發(fā)布,因其出色的多模態(tài)感知和推理能力而立即引起了社區(qū)的關(guān)注。在此之后,使用CLIP模型對圖像進(jìn)行分類,提高了分類任務(wù)的精度。這些進(jìn)步主要針對基本的視覺識別,如分類和檢測。在這項工作中,我們致力于將LLM中包含的豐富世界知識整合到視覺對象跟蹤領(lǐng)域。?

ChatTracker方法詳解

所提出的ChatTracker由三個部分組成:基于反射的提示優(yōu)化(RPO)模塊、語義跟蹤模塊和前景驗證模塊。

Reflection-based Prompt Optimization Module

初始化。我們在第一幀I1中的跟蹤目標(biāo)上繪制一個綠色邊界框,創(chuàng)建一個新的圖像輸入Im。預(yù)定義的人工提供的提示模板Tinit和Im被輸入到MLLM中,從而對前景和背景進(jìn)行初始描述:

圖片

RPO模塊將模板圖像作為輸入,并生成前景和背景的文本描述。然后,對于每一幀,語義跟蹤模塊將前景和背景的文本描述作為輸入,利用GVLM獲得前景和背景region proposals:

圖片

語義跟蹤模塊還包括一個現(xiàn)成的單對象視覺跟蹤器。最后,前景驗證模塊通過考慮前景建議、背景建議和模板之間的關(guān)系,選擇置信度最高的前景建議作為跟蹤結(jié)果。?

實驗結(jié)果?

結(jié)論

在這項工作中,我們介紹了ChatTracker,這是第一種利用多模態(tài)大語言模型(MLLM)來提高視覺跟蹤性能的方法。我們提出了一種基于反射的提示優(yōu)化(RPO)模塊,通過跟蹤反饋迭代地改進(jìn)目標(biāo)的模糊和不準(zhǔn)確的語言描述。此外,提出了一種簡單而有效的視覺語言跟蹤框架,作為即插即用的方法來提高現(xiàn)有跟蹤器的性能。在多個數(shù)據(jù)集上的實驗結(jié)果表明,我們的方法優(yōu)于最先進(jìn)的方法。這表明,將MLLM納入視覺跟蹤對提高跟蹤性能有顯著效果。

#自動駕駛感知算法面經(jīng)

本人2022年4月和2023年7月兩次跳槽找工作,面經(jīng)總結(jié)在這里,希望可以幫到需要的朋友。

項目相關(guān)的問題主要和經(jīng)歷有關(guān),參考性不大。?

2023年7月

1. 文遠(yuǎn)知行

自動標(biāo)注算法崗位

項目經(jīng)歷問的不深

coding兩道題。

leetcode 55 跳躍游戲。

NMS python。

2. 易控智駕

面試體驗較差,不說了。

3. 斑馬

coding:買賣股票基礎(chǔ)版

工作時間早十點,晚上八九點

4. 蔚來

第一輪:

項目問的比較細(xì)

幾個公開數(shù)據(jù)集的lidar區(qū)別,對點云、模型檢測的影響

domain adaption相關(guān)的方法,如何縮放點云

radar檢測的具體優(yōu)化。pointnet和pointnet++的區(qū)別

pnp calibration

欄桿檢測為什么不用網(wǎng)絡(luò)學(xué)習(xí)?

BN的mean和std的dimension,有哪些可學(xué)習(xí)的參數(shù),train和test的時候怎么用

coding:python 計算兩批shape不一樣的box的IoU。不用for循環(huán)。

numpy的broadcast

自認(rèn)為有技術(shù)領(lǐng)先性

第二輪:

問的都是些比較抽象的問題

對視覺3d檢測算法的了解。

舉例工作中遇到的困難,(技術(shù)/項目),如何解決的

對之前公司的感知算法的問題,看法認(rèn)識

對未來自動駕駛算法的看法

coding:未知形式的函數(shù)f(x),零點在[-1,1], 求零點,精度要求1e-4

5. 有個機(jī)器人

純純八股文

c++語言特性,構(gòu)造函數(shù),析構(gòu)函數(shù)

batch norm是什么,原理

MLP是什么, 欠擬合,過擬合,

是否了解量化,剪枝

目前是lidar為主,未來會加camera。

主要是做小型物流機(jī)器人。

在做安防機(jī)器人。

感知團(tuán)隊5-6個人,包括深度學(xué)習(xí),slam。

上班時間10-7 。

大小周 周六上班。

6. 井松智能

沒問什么技術(shù)問題,主要介紹下項目

要去合肥出差

工作時間:九點半到六點半

7. 商湯

智慧城市

沒問項目就開始coding

coding兩道題:NMS,用pytorch手寫一個transformer或者conv+bn+fc

8. 禾賽科技

第一輪:

項目問的很細(xì)

卡爾曼濾波Q和R怎么調(diào)

c++ 解釋多態(tài),在哪些場景應(yīng)用過

vector和list的差別,底層實現(xiàn),各種操作復(fù)雜度

template是否算一種多態(tài)?如果不在.h里面定義他的函數(shù),在.cpp里面定義會有什么問題?

公司的優(yōu)勢:軟硬件一體,易于溝通解決問題

客戶的不同硬件平臺,不同的功能需求。

第二輪:

又問了些項目相關(guān)的問題。

一堆點,找最大凸包。無序的話 用什么排序?極點排序,最慢O(n^2)

第三輪:

現(xiàn)場面試

介紹下最有成就感的一個項目。

coding:快排,時間復(fù)雜度為什么是O(NlogN)

c++ segment fault如何debug

vector 和list底層實現(xiàn),基礎(chǔ)操作復(fù)雜度

問了些性格相關(guān)的問題

9. 字節(jié)aml

沒有問八股,問了些大模型的較新的技術(shù)進(jìn)展

llama,MAE,flamingo

transformer的encoder和decoder,position encoding,rope。

10. oppo研究院

第一輪:

問了項目中涉及到檢測跟蹤的算法

十幾個人 四個方向。檢測跟蹤2個人,做手機(jī)相冊相關(guān)算法

c++ vector底層實現(xiàn),基本操作復(fù)雜度,

虛函數(shù),設(shè)計模式有哪些,用過哪些設(shè)計模式

第二輪:

介紹下某項目中對模型做了哪些優(yōu)化

yolov5,v6,v7

clip有什么問題。為什么,適合什么場景

segement anything:prompt如何輸入進(jìn)網(wǎng)絡(luò)

認(rèn)為自己擅長算法的哪些方面

有些算法是外包的,準(zhǔn)備轉(zhuǎn)為自研

11. navinfo四維圖新

泊車感知算法

傳感器:超聲波傳感器和魚眼相機(jī)

L2行車泊車。今年年中/年末交付

自動駕駛在內(nèi)部相對獨立。

圖像感知在北京。

超聲波傳感器換了新版。輸出的信息更多了,需要招人來。

國資背景

眾包地圖

上半年剛進(jìn)行改革。壓力比較小。

八小時彈性。無事不加班。

12. 商湯自動駕駛

第一輪:

了解哪些目標(biāo)檢測算法,各自的優(yōu)缺點(anchor,anchor free,transformer)

傳感器標(biāo)定是怎么做的

domain adaption怎么做的

描述兩次代碼重構(gòu)的過程和思想

描述卡爾曼濾波的過程,具體如何解決問題的

后融合怎么做的,速度的gt如何得到

coding:dbscan

第二輪:

是否了解learning的tracking?

是否了解sota的bev感知算法

是否能接受加班

13. 理想第一輪。

早九晚六/七

c++寫的很多

coding;島嶼數(shù)量,延伸:如何統(tǒng)計不同形狀的島嶼,如何對不同形狀建模表示

描述下dbscan過程

c++ 為什么要用引用傳參

目前l(fā)idar和融合一共20人

14. 地平線(合資)

第一輪:

加班沒有特別頻繁。上海會新開office在虹橋/張江。

coding:快排

第二輪:

問的c++問題相對較難:

內(nèi)存分配,內(nèi)存池

野指針,一般是什么情況下會產(chǎn)生,如何避免

智能指針,如何實現(xiàn)一個shared_ptr類,各個成員函數(shù)什么時候調(diào)用,成員變量什么時候更新。

new一個新對象時候發(fā)生了什么,如何能只創(chuàng)建對象不分配空間?

調(diào)用一個派生類的構(gòu)造函數(shù)時發(fā)生了什么?

15. 英偉達(dá)

自動駕駛support崗位,每周去車上測試一次

描述圖像resize的過程并實現(xiàn)

c++編譯出現(xiàn)undefined reference如何debug

遷移軟件時,出現(xiàn)找不到的binary怎么解決

c++多態(tài),虛函數(shù),構(gòu)造函數(shù)可以是虛函數(shù)嗎,為什么

內(nèi)存泄漏如何避免

c++模板,應(yīng)用場景

智能指針,shared_ptr, unique_ptr

指針和引用

external

感受野怎么算,如果有branch

描述NMS過程

yolo和ssd的box后處理的具體過程

transformer的self-attention過程

softmax為了讓輸出更穩(wěn)定做了什么

2022年4月

ps:以下記錄的公司相關(guān)的信息已經(jīng)不太可信

1. 滴滴

第一輪:

pointnet input transform,feature transform

coding 834. Sum of Distances in Tree hard,dp+2dfs

C++ set和ordered set底層實現(xiàn),insert和erase的復(fù)雜度

第二輪:

英文自我介紹&幾個簡單的問題

主要問的tracking,ukf有沒有用,具體的R如何根據(jù)mean和std調(diào)整

coding https://www.techiedelight.com/find-triplet-with-given-sum-bst/

bst遍歷的時間復(fù)雜度,3sum用左右指針的時間復(fù)雜度:O(N^2)

  • Time complexity of all BST Operations = O(h).
  • Here, h = Height of binary search tree

2. 輕舟智航

第一輪:

pointnet input transform,feature transform,

max-pooling可以用什么替代?怎樣可以降低nx1024的參數(shù)量?

batch norm解決了什么問題?有什么優(yōu)缺點?需要學(xué)習(xí)哪些參數(shù)?還有其他什么norm?

L1和L2 regularization,什么作用,具體怎么實現(xiàn)的,什么區(qū)別,和weight decay什么關(guān)系

卡爾曼濾波器,P,Q,R怎么決定K和協(xié)方差陣的?

狀態(tài)量在平面坐標(biāo)系,觀測量在極坐標(biāo)系,效果不好?

coding 547. Number of Provinces graph dfs

dfs的時間復(fù)雜度:O(N^2) 因為每個節(jié)點都要去遍歷他的children,相當(dāng)于兩層循環(huán)

c++:

vector底層實現(xiàn),空間是連續(xù)的嗎?vector變量存在堆上還是棧上?里面的每一個值存在堆上還是棧上?

unordered map和map,有序還是無序?底層實現(xiàn),insert和erase的復(fù)雜度

3. ecarx億咖通

第一輪

coding:DBSCAN

主要業(yè)務(wù):智能座艙+自動駕駛

芯片:xinqing科技

感知主要是lidar和camera

去年(2021年)獲得了hdmap甲級資質(zhì)

第二輪:

radar 后融合 直接用cluster

偏向于lidar和camera

目前還在實現(xiàn)大部分功能

前裝,乘用車,

主線:多V,多R,多l(xiāng)idar

高速+城區(qū),逐步release

雙休,九點半到八點,不打卡

徐匯濱江西岸

平臺,系統(tǒng)更大,自動駕駛,芯片,智能座艙,

港股上市,

和tech lead面試的問題:

團(tuán)隊的組成?二十多個人做NN模型,研究生,平均四五年以上,大感知團(tuán)隊:有博士,

zhijia,小鵬,mmt,華為,

自己開發(fā)的訓(xùn)練模型的平臺,pytorch。

平時有發(fā)paper或者刷榜的計劃安排嗎? 會和平時的工作相結(jié)合,互相驗證。

比較看重員工的什么能力?技術(shù)能力,溝通。創(chuàng)造力。

做到25年的規(guī)劃。

23年單V落地。

主要客戶:泊車,adas,吉利汽車下面的。還有一些聯(lián)合開發(fā)。

4. 縱目

一輪技術(shù)面:

更復(fù)雜的tracking算法。

傳感器raw data。

前融合。

freespace 用雷達(dá)

視覺->系統(tǒng)供應(yīng)商->雷達(dá)

毫米波雷達(dá)感知七八個人,還有信號處理,一共100多人。華為,美團(tuán),江淮。

hr面試:

工作時間 九點半,五點半/六點半。雙休,沒有打卡

毫米波雷達(dá)感知七八個人

同一批人做量產(chǎn)/預(yù)研

中級/高級差不多各一半。

總監(jiān) 工作了十幾年。比較平衡。

有mentor

張江

5. 采埃孚

ukf,

除了hm之外的其他匹配算法

觀測和預(yù)測的相似度計算

PQR都是怎么設(shè)置的

單例模式和工廠模式的區(qū)別

6. 感鎧科技

L2,L3,adas功能實現(xiàn),主要在底特律

嘗試前融合,目前是用原始radar detection和vision

4d radar 從硬件到軟件

初創(chuàng)公司

有期權(quán)

乘用車

公司名字可能會改,四月份確定

項目制,

馬上要A輪

在新江灣城

7. 文遠(yuǎn)知行

第一輪:

卡爾曼濾波,怎么用同一個filter同時適配車輛橫穿的場景

感受野計算。

centernet等基于center的recall不夠高,有什么辦法來改善

做二分類,有80%的數(shù)據(jù)是標(biāo)注正確的,20%是標(biāo)注失敗的,如何訓(xùn)練?

anchor-base和anchor-free的優(yōu)劣;

如果anchor-based的方法,設(shè)置很多不同的anchor,對于非正常寬高比的物體以及小目標(biāo)會有改善嗎,除了計算速度以外會有什么其他問題

c++11之后的新特性有沒有用過

智能指針

void test (const std::vector<shared_ptr>& aaa){

aaa[0].b += 1;

}

編譯能不能通過

std::vectorgenerate() 和 void generate(std::vector*) 哪個效率高

一般是第二個效率高,因為函數(shù)返回值默認(rèn)會賦值一份空間,除非編譯器有做return value optimization

單例模式的實現(xiàn):static、全局變量、指針判斷(默認(rèn)是空,每次用的時候判斷是不是空,空就創(chuàng)建一個)

coding:二叉樹的直徑 543

上海這邊一共50人,感知6~7個人,

大家同時做幾個產(chǎn)品線,通用算法

毫米波雷達(dá)和視覺相關(guān)都有

第二輪:

coding:105. 從前序與中序遍歷序列構(gòu)造二叉樹, 7. 整數(shù)反轉(zhuǎn)

環(huán)衛(wèi)車項目,要在廣州2個月左右,目前是二三十個人,主要是基于已有的融合,tracking框架加入環(huán)衛(wèi)車特有的一些規(guī)則

后面穩(wěn)定下來后可以參與感知算法

8. 極氪科技

面試官是radar負(fù)責(zé)人

7,8點下班

coding:區(qū)間合并 56

目前毫米波雷達(dá)只有兩個人

背靠吉利,在供應(yīng)商面前占有強(qiáng)勢地位,有conti的4d radar在手

目前可以拿到傳感器目標(biāo)級和點云級的輸入

毫米波雷達(dá)在高速上比較重要,未來會擴(kuò)展城區(qū)場景

主要來自蔚來,華為

第二輪:

面試官是感知負(fù)責(zé)人

感知包括定位等,一共目標(biāo)一百六七十,

感知算法,目標(biāo)檢測這邊目標(biāo)八九十。

前融合,feature級別的融合

量產(chǎn) 要求較高

最終目標(biāo)是城區(qū)場景

目前是裝的eq5

也會涉及到lidar,融合等算法

九點半之前上班。

9. autox

第一輪:

coding:number of islands

unorder_map map區(qū)別,unique_ptr

int const * const x; const放在*右邊,指針的指向不能改,這一行第一個const也可以放到左邊,const int也不能改 int * const y; 指向int的const指針,int值可以改,指針指向的地址不能改 const int& i = *y; i的值不能改,read only int& j =*y; j是別名,可以改,改了的話y指向的變量也會改

毫米波雷達(dá)感知只有美國一個人,國內(nèi)十幾個人在做autox自己的雷達(dá)。

也會做和camera,lidar的融合

第二輪:

卡爾曼濾波器,要是系統(tǒng)不是線性的會產(chǎn)生什么問題?

ekf是怎么解決不是線性的問題的?

匈牙利匹配是一個全局最優(yōu)的,有沒有試過其他的匹配方法

coding:判斷一個點是否在一個旋轉(zhuǎn)的box內(nèi)

10. pony

第一輪:

coding:https://leetcode.com/problems/binary-tree-maximum-path-sum/

問了ssd,yolov3,centernet

第二輪:

是否了解radar如何測角測速

coding:無序數(shù)組,選三個連續(xù)子數(shù)組,每個子數(shù)組都是兩個元素,求這三個子數(shù)組的和的最大值

用前綴和思想+

也會做和lidar,camera的融合,

有不同的項目線,基本上用同樣的code base,自己決定做哪個項目

算法迭代需求主要來自于路測問題和evaluation結(jié)果

evaluation工具比較完善

11. 千掛

主要在北京,一共30, 感知5-6個人,前融合

coding:實現(xiàn)shared_ptr

兩個bst,各選一個數(shù),加起來等于target

12. 主線科技

第一輪:

重卡,物流運(yùn)輸,

干線物流+港口物流:L4,無安全員。

北京:港口,L4前瞻調(diào)研,lidar和vision提供general感知,地圖等。300人。

按照博世系統(tǒng)來,

上海:算法十個人,平均工作五年以上

去年(2021年)九月份成立,主要是為了高速干線物流量產(chǎn),落地,合作商用oem top2,radar后融合with lidar和vision,環(huán)境搭建,會來一位大佬,做過前后融合,目前沒有人做radar,打算招7~8個人。目前是用目標(biāo)級輸出,未來用點云。50人->100人。算法三十人。

第二輪:

先做后融合,

當(dāng)前是L2

第三輪:

日常的工作的大概內(nèi)容?

路測數(shù)據(jù),主導(dǎo)開發(fā)的原則,

比較看重員工的什么能力?

背景,學(xué)歷,個性。

主要是Apollo系統(tǒng),

組織架構(gòu)合理,有凝聚力

毫米波雷達(dá)+融合。

嘉定安亭。上海汽車城大廈。九點到六點半。十一點半到一點午休。沒有打卡。

13. 云驥科技

第一輪coding: 54. 螺旋矩陣

感知15個人,lidar,camera,radar,

干線物流,城市貨運(yùn),乘用出行三個場景,從城市場景開始做?

做一個統(tǒng)一的平臺,優(yōu)先做robotaxi。然后做robo bus

園區(qū)L4無人小巴,計劃六月份在上海公共道路

robotaxi已經(jīng)有公司在做了,和友商比較的核心競爭力是什么?域控,有自己的gpu,不用ipc

團(tuán)隊完整,資金足夠,王京傲的影響力。

自驅(qū)力,自我成長,團(tuán)隊合作精神。

14. 禾多科技

代客泊車和自動駕駛

第二輪

有多個項目

5R + 1V

5R + 7V

5R + 7V + 3L

一個人會參與多個項目

上海這邊感知4/5個人

15. appen澳鵬

第一輪:

澳洲上市的外企

主要工作:數(shù)據(jù)預(yù)處理,后處理,算法開發(fā)。

上海有兩個分部:local和global。這個崗位負(fù)責(zé)global業(yè)務(wù),準(zhǔn)備招4~5個人

流程:本地驗證,和annotator合作驗證,跑過線上ab test,由engineer部署。

第二輪:

coding:兩個排好序的數(shù)組,找公有元素。

Product quantization (PQ)

問了概率計算,sample數(shù)據(jù)實現(xiàn)。

個人的優(yōu)缺點

主要客戶:Google,Apple,

16. 智加

coding:number of islands

量產(chǎn)由其他team負(fù)責(zé),這個team負(fù)責(zé)預(yù)研及量產(chǎn)。

17. 商湯

點云和圖片的區(qū)別

pointnet為什么沒有用conv?

focal loss的參數(shù)如何調(diào)

有哪些loss

anchor free和anchor based的區(qū)別

anchor-free的target assign是怎么做的,怎么解決多個目標(biāo)中心點位置比較靠近的問題?

centernet網(wǎng)絡(luò)輸出是什么

描述卡爾曼濾波器

如果分類問題中幾個類別有overlap怎么辦,如何設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)

是否了解mmdetection的hook

如果需要在mmdetection中加一個backbone,需要改哪些代碼?

coding:二叉樹中序遍歷,不用遞歸

18. 禾賽科技

第一輪:

數(shù)據(jù),標(biāo)注,感知,后處理,工程

15個人,點云特征,十點-八點

第二輪:

coding:環(huán)形鏈表,每一個node是一個point(x,y),連起來是一個多邊形,判斷凸凹性

19. 均勝電子

準(zhǔn)備單獨上市,去年(2021年)剛成立,準(zhǔn)備從100人擴(kuò)張到200人

目前有五家公司在談合作。

先做國內(nèi)再做國外

算法:感知10人->20人。

主要做L4 taxi,L2,L2++,芯片

目前主要在高速場景

老板郭濟(jì)順

客戶穩(wěn)定,傳統(tǒng)tier1,有積累,有資源,70%業(yè)務(wù)來自于國外

第二輪:面試官以前在上汽,主要做視覺感知,七八年

上海office在莘莊。莘學(xué)路。兩棟樓。

有食堂。

九點-五點。

#如何做vslam

倘若能有一場時空對話,我將告訴曾經(jīng)的我如何做vslam

短短4年的時間,vslam就猶如過氣網(wǎng)紅般聲量漸失。曾經(jīng)這個話題,還能引來各路大佬歡聚一堂好不熱鬧,如今曲終人散,門前冷落鞍馬稀。今日趕個晚集,借這個話題做個我這幾年開發(fā)的幾個vslam項目總結(jié),倘若能有一場時空對話,我將告訴曾經(jīng)的我如何做這個事情。

衣帶漸寬終不悔,為伊消得人憔悴。

SLAM 技術(shù)會是一場泡沫嗎??

1.知彼

當(dāng)被安排某個陌生的工作的時候,想必大家心情是這樣的:

學(xué)習(xí)兩年多,感覺SLAM太難了,大家對此有什么想法?

自己,隊友,老大都是小白也沒關(guān)系,都沒思路也沒關(guān)系,可以去搜搜別人工作先。每一個好廚子都肯定先是一個好吃貨。當(dāng)我從別處知道一個新概念的時候,那至少說明第一個螃蟹已經(jīng)有人吃了,我可以去搜搜他的“小x書”看看那些“網(wǎng)紅博主”的心得。

算法領(lǐng)域的“小x書”大家都懂:github,在里面搜搜高流量(star)帖子就好了。在這個“知播間”里我已經(jīng)替家人們匯總好了:

請問是否有開源的實時視覺里程計?

通過上述總結(jié),以特征點為例,可以發(fā)現(xiàn)框架性工作為vins,msckf,orbslam,kimera,這幾篇給我們提供了優(yōu)秀的ceres,濾波,g2o,gtsam的pipeline和學(xué)習(xí)手冊,堪稱vslam領(lǐng)域的基礎(chǔ)設(shè)施。大量后來者在白嫖..啊不,致敬這些作品后進(jìn)行二創(chuàng)。

vslam要干哪些事情呢?有特征提取和匹配,狀態(tài)優(yōu)化,深度解算,回環(huán)檢測/VPR,全局BA/PGO。

在掃過大量二創(chuàng)后,發(fā)現(xiàn)他們都比較關(guān)注特征提取和匹配這個環(huán)節(jié),尤其超愛線面特征。配合深度學(xué)習(xí)食用后又交叉到感知去了。

堅守SLAM還是擁抱大模型?

我對3dgs/nerf和事件相機(jī)的slam方向一直不感冒,可能是在企業(yè)里呆慣了也沒讀過博的緣故吧,在我有限的認(rèn)知里,我看不到這幾個方向落地的可能性,更像是學(xué)術(shù)圈閉門造車的自嗨。算法工程師算是相對比較貴的崗位,若只顧著發(fā)論文玩demo講故事而不靠產(chǎn)品持續(xù)造血,當(dāng)資本的浪潮褪去時,還是會略顯尷尬吧。

方向錯誤是最可怕的事情,你越努力,朝錯誤的方向走得越遠(yuǎn),沉沒成本越高,就越難回頭,也越跟不上。

這樣的例子有很多,蘇聯(lián)和美國在計算機(jī)領(lǐng)域本在同一起跑線,甚至他們的數(shù)學(xué)更強(qiáng),但是他們發(fā)展晶體管而不是集成電路,他們玩三進(jìn)制而不是二進(jìn)制,走錯了路就再也追不上了;還有日本新能源科技樹點到了氫上,已經(jīng)徹底跟不上中美對步伐了,甚至他們的鐵桿盟友烏克蘭把他們的氫能源車拿去做炸彈刷給榜一大哥俄羅斯,這誰敢開他們的車?

對錯誤路線的判斷取決于認(rèn)知,認(rèn)知局限導(dǎo)致走錯路很可怕,明知故走就更可怕了。?

2.知己

知己知彼,百戰(zhàn)不殆。知彼,是為了知道別人在想什么干什么,知己,是為了知道自己啥條件啥需求。

啥需求?

為什么目前落地的主流SLAM技術(shù)很少用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取?

室內(nèi)還是室外,地上跑的天上飛的還是水里游的,靜態(tài)還是動態(tài)環(huán)境,里程計還是建圖,等等..

還有一個容易被忽略的點:初始化。初始化分為靜態(tài)初始化和動態(tài)初始化,靜態(tài)初始化只適用于帶imu的。

vins的單目動態(tài)初始化讓我格外印象深刻,得瞅著一個地方劇烈的動彈幾下才行;而msckf,kimera就更顯佛系,在那呆著不動把imu初始狀態(tài)維護(hù)好就行了。至于哪種初始化更好就是仁者見仁智者見智,蘿卜白菜各有所愛,一千個讀者有一千個哈姆雷特的事情了。

啥條件?

數(shù)據(jù)頻率,傳感器數(shù)量質(zhì)量類型(鈔能力),標(biāo)定,時間對齊等等。沒條件也呆膠布,不是還有那么多數(shù)據(jù)集嘛。?

3.沒事走兩步

把心儀的方案下載下來,編譯配置,跑個demo。實踐是檢驗吹牛的唯一標(biāo)準(zhǔn)。

那些經(jīng)過普遍檢驗過的方法如果沒跑出來,要么數(shù)據(jù)有問題,要么標(biāo)定有問題,要么鏡子里的吳彥祖有問題。

經(jīng)過這一步之后,想必各位彥祖心里已經(jīng)有信心了,就可以確定原型代碼是哪篇了。?

4.讀論文和代碼

先看代碼后看論文。論文有時候像渣男口里的情話,讓人臉上不禁激蕩起一抹少女般的紅暈;有時候像孔乙己討論“茴”有多少種寫法,高深莫測,回味無窮。代碼里10行搞定的事情,他再配上高端晦澀的公式若干和滔滔不絕的長篇大論,令無數(shù)信徒迫不及待地一鍵三連,獻(xiàn)上虔誠的膝蓋,競相折腰。原本木訥呆板的理工生,此時竟也學(xué)會了花言巧語,一口一個大佬大佬的叫嚷著,讓人心里暖暖的。而冷酷無情的代碼卻化身最后的輕語,讓人沉默又破防。

好在,代碼是論文的照妖鏡。就算看不懂代碼里的公式,但是他干什么用的一定能測出來,而論文則可能會因為先驗知識的缺乏而令人摸不著頭腦。正如閱人無數(shù)的海王,情場得意的高手,早已品嘗過人生百態(tài),世態(tài)炎涼,在輕易看透了對方那點小心思后,一切便盡在把握。畢竟比起他說的什么,我更相信他做的什么。

為什么自學(xué)編程那么難?

看完代碼后再看論文,此時論文里的內(nèi)容,像久別重逢的摯友,失而復(fù)得的舊愛,回頭是岸的浪子,沸羊羊的美羊羊,柳暗花明,豁然開朗。

原作的心思就像少年的女神一樣深不可測,捉摸不透,令人浮想聯(lián)翩。不說原作,很多人可能甚至連上個星期自己寫的代碼都看不懂,驀然回首,chatgpt竟比我更懂我。因此先不要死磕,能run就行,慢慢理解。如果前方有一堵墻,老實人會拿頭撞得頭破血流,皮開肉綻,而小機(jī)靈鬼,會避其鋒芒,另辟蹊徑。小心思我讀不懂,但身體是誠實的。

先模塊化調(diào)試,理解數(shù)據(jù)流在不同函數(shù)之間流轉(zhuǎn)過程的產(chǎn)出,假以時日,黑箱變白箱。?

5.開始二創(chuàng)

想必到這一步時,腦子里肯定已經(jīng)有很多idea了。如果還沒有,可以繼續(xù)看別人的二創(chuàng),現(xiàn)在2024年出來的vio還是有點線特征這個思路的。因此,可以走別人的路,讓別人無路可走。說不定你會化身芳心狙擊手,你寫的論文如蜜罐里的甜言蜜語,讓審稿人小鹿亂撞,心神不寧,坐立不安,如癡如醉,輾轉(zhuǎn)反側(cè),墜入愛河,仿佛回到那年夏天,看著十指相扣的TA。不知是一不小心還是欲拒還迎,被輕而易舉的擊中軟肋,highlight和best paper就半推半就的獻(xiàn)給了你。而你,我素未謀面的老熟人,翻身做了大佬,春風(fēng)得意,容光煥發(fā),便可在朋友圈里昭告天下,衣錦還鄉(xiāng)。而企業(yè)里牛馬們的二創(chuàng)基本是數(shù)據(jù)適配,框架重構(gòu),性能優(yōu)化,基于自有場景corner case堆if,年會上鮮艷的大紅花,說不定就能別在你筆挺的胸前,一想到剛滿18歲的hr小姐姐的回眸一笑,是不是還有點小激動。?

6.知識遷移

slam領(lǐng)域就像家一樣,里面?zhèn)€個都是人才,說話又好聽,想必各位和我一樣,超喜歡呆在里面的。

曾經(jīng)的slam猶如正襟危坐的高冷女神,但在知識的傳播中不斷去魅,現(xiàn)在逐漸成為了平易近人的鄰家小妹。這一篇換一下語言風(fēng)格,轉(zhuǎn)載搬運(yùn)請私信,近期周更,家人們點點關(guān)注不迷路。

http://m.risenshineclean.com/news/60189.html

相關(guān)文章:

  • 怎樣給一個網(wǎng)站做專題策劃谷歌seo網(wǎng)站建設(shè)
  • 高端網(wǎng)站開發(fā)找哪家好百度seo多少錢一個月
  • vue wordpress 主題seo排名優(yōu)化軟件有
  • 手機(jī)網(wǎng)站建設(shè)軟件營銷型網(wǎng)站重要特點是
  • 做惡搞圖片的網(wǎng)站海外推廣專員
  • 網(wǎng)站建設(shè)英文合同淘寶seo軟件
  • 湛江搜索引擎網(wǎng)站推廣品牌營銷策略
  • 有些網(wǎng)站突然無法訪問寧波優(yōu)化系統(tǒng)
  • 溫州大都市建設(shè)開發(fā)有限公司網(wǎng)站seo試用軟件
  • 軟裝設(shè)計素材網(wǎng)站seo網(wǎng)站排名優(yōu)化公司
  • 湖南做網(wǎng)站kaodezhu被國家禁止訪問的網(wǎng)站怎么打開
  • 網(wǎng)站備案查詢不到說明啥短網(wǎng)址生成網(wǎng)站
  • 株洲市區(qū)網(wǎng)站建設(shè)公司長春網(wǎng)站建設(shè)方案推廣
  • 做徽標(biāo)的網(wǎng)站網(wǎng)絡(luò)營銷課程心得體會
  • 一級a做片性視頻網(wǎng)站鄭州百度seo網(wǎng)站優(yōu)化
  • 中山企業(yè)建站程序三只松鼠軟文范例500字
  • 智趣游戲型網(wǎng)站開發(fā)百度收錄批量查詢工具
  • 和諧校園網(wǎng)站建設(shè)企業(yè)整站seo
  • 怎樣購買網(wǎng)站程序360公司官網(wǎng)首頁
  • 汕頭好的建站網(wǎng)站杭州疫情最新消息
  • 裝修設(shè)計網(wǎng)站源碼三只松鼠的軟文范例
  • wordpress整站隱藏百度一下手機(jī)版
  • 馬云將來淘汰的十個行業(yè)網(wǎng)站建設(shè)跨境電商哪個平臺比較好
  • 哪家網(wǎng)站建設(shè)做的好百度賬號個人中心
  • 六年級做的網(wǎng)站的軟件下載互聯(lián)網(wǎng)推廣平臺有哪些公司
  • 上海網(wǎng)絡(luò)平臺網(wǎng)站建設(shè)cba排名最新排名
  • 溫州建設(shè)網(wǎng)站公司推廣策劃方案
  • 頁面設(shè)計藍(lán)色與什么顏色搭配最和諧優(yōu)化網(wǎng)站seo
  • 成都網(wǎng)站建設(shè)平臺排名優(yōu)化方法
  • 小地方的旅游網(wǎng)站怎么做網(wǎng)絡(luò)公司排名