10月27日消息:谷歌最新發(fā)布的PaLI-3視覺語言模型(PaLI-3)在小體量下實現(xiàn)了SOTA性能,引起廣泛關(guān)注。這款模型以更小的體量和更快的推理速度實現(xiàn)更強大的性能,是谷歌去年推出的多模態(tài)大模型PaLI的升級版。
通過對比預訓練方法,研究人員深入研究了視覺-文本(VIT)模型的潛力,從而在多語言模態(tài)檢索中達到了SOTA水平。這一成功凸顯了較小規(guī)模模型在實際應用和高效研究中的重要性,提供了強大性能和低參數(shù)需求的替代方案,有望推動視覺語言領(lǐng)域的發(fā)展。

視覺語言模型在人工智能領(lǐng)域發(fā)揮著重要作用,PaLI-3將自然語言理解和圖像識別完美融合,成為AI創(chuàng)新的先鋒。與其他模型如OpenAI的CLIP和Google的BigGAN類似,這些具有文本描述和圖像解碼能力的模型推動了計算機視覺、內(nèi)容生成和人機交互等領(lǐng)域的發(fā)展,成為科學研究和商業(yè)發(fā)展的核心力量。
PaLI-3的內(nèi)部結(jié)構(gòu)采用了預訓練的VIT-G14作為圖像編碼器,并使用SigLIP的訓練方法,其中VIT-G14的20億參數(shù)是PaLI-3的基石。對比預訓練在圖像和文本嵌入后關(guān)聯(lián)特征層面,將視覺和文本特征合并后輸入到30億參數(shù)的UL2編碼-解碼器語言模型中,實現(xiàn)了精確的文本生成,也可用于特征任務的查詢提升,如視覺問答(VQA)。
總的來說,PaLI-3在視覺語言模型領(lǐng)域表現(xiàn)出色,特別在定位和視覺文本理解等任務中取得了卓越的性能。它的基于SigLIP的對比預訓練方法開辟了多語言跨模態(tài)檢索的新時代。這一模型在多個任務和數(shù)據(jù)集上都展現(xiàn)出杰出表現(xiàn),為視覺語言領(lǐng)域的研究和應用帶來了新的可能性。
雖然PaLI-3尚未完全開源,但已發(fā)布了多語言和英文SigLIP Base、Large和So400M模型,為感興趣的研究人員提供了嘗試的機會。這一創(chuàng)新有望影響視覺語言模型的未來發(fā)展方向,提供更高效的解決方案。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設(shè)計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設(shè)備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。