国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

告別參數(shù)內(nèi)卷,“舒適黃金三角”行業(yè)標(biāo)準(zhǔn)下美的中央空調(diào)的技術(shù)突破比亞迪推進(jìn)L3量產(chǎn)內(nèi)測:已完成15萬公里L(fēng)3級(jí)自動(dòng)駕駛驗(yàn)證微星PRO A1000PL PCIE5電源首發(fā)699元 ATX3.1+PCIe5.1雙認(rèn)證高德開放平臺(tái)發(fā)布智能穿戴解決方案 已落地小米、榮耀等品牌擁抱AI,HPE Networking以“自動(dòng)駕駛的網(wǎng)絡(luò)”引領(lǐng)智能網(wǎng)絡(luò)新時(shí)代2026年,6G會(huì)給我們帶來什么?情感交互人形機(jī)器人“愛湫”將發(fā)布:龍蜥外形設(shè)計(jì)超120間分店!萬寧宣布將關(guān)閉內(nèi)地所有門店及線上商城美團(tuán)LongCat App上線視頻通話功能 可模擬面試、輔導(dǎo)作業(yè)全球最小全自主可編程機(jī)器人誕生:接近細(xì)菌尺度 成本僅1美分歷時(shí)近三年:京東方、三星專利大戰(zhàn)最后一刻和解!王興興:即使再過一兩年 人形機(jī)器人全自動(dòng)駐場演出也很難見到微信輸入法iOS版3.0發(fā)布:語音輸入大模型全面升級(jí)京東自提功能全國上線:到店自提 可再減一元愛詩科技與阿里云簽署全面合作協(xié)議 推動(dòng) AI 視頻全球化發(fā)展小米官宣:比亞迪方程豹鈦7首發(fā)適配小米生態(tài)接口 支持后排掛載平板全球首款10000mAh手機(jī)來了!榮耀WIN系列邁入萬級(jí)電池時(shí)代騰訊混元世界模型1.5發(fā)布!首次開源業(yè)界最全面實(shí)時(shí)世界模型框架從“+AI”到“AI+” 智能終端從功能疊加向體驗(yàn)提質(zhì)升級(jí)腦機(jī)接口邁向臨床應(yīng)用 AI驅(qū)動(dòng)人機(jī)融合
  • 首頁 > 云計(jì)算頻道 > 大模型

    視覺語言模型BLIVA:讓AI更擅長閱讀圖像中的文本 懂得看路牌和食品包裝

    2023年08月29日 21:02:50 來源:站長之家

      文章概要:

      1.BLIVA是一種視覺語言模型,擅長讀取圖像中的文本。

      2. BLIVA結(jié)合了InstructBLIP的學(xué)習(xí)查詢嵌入和LLaVA的編碼修補(bǔ)嵌入。

      3. BLIVA在多個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異,可用于識(shí)別路牌、食品包裝等場景。

      BLIVA 是一種視覺語言模型,擅長讀取圖像中的文本,使其在許多行業(yè)的現(xiàn)實(shí)場景和應(yīng)用中發(fā)揮作用。

      加州大學(xué)圣地亞哥分校的研究人員開發(fā)了 BLIVA,這是一種視覺語言模型,旨在更好地處理包含文本的圖像。視覺語言模型 (VLM) 通過合并視覺理解功能來擴(kuò)展大型語言模型 (LLM),以回答有關(guān)圖像的問題。

      這種多模態(tài)模型在開放式視覺問答基準(zhǔn)方面取得了令人印象深刻的進(jìn)展。一個(gè)例子是 OpenAI 的GPT-4,它的多模式形式可以在用戶提示時(shí)討論圖像內(nèi)容,盡管此功能目前僅在“Be my Eyes”應(yīng)用程序中可用。

      然而,當(dāng)前系統(tǒng)的一個(gè)主要限制是處理帶有文本的圖像的能力,這在現(xiàn)實(shí)場景中很常見。

      BLIVA 結(jié)合了 InstructBLIP 和 LLaVA

      視覺語言模型通過合并視覺理解功能來擴(kuò)展大型語言模型,以回答有關(guān)圖像的問題。

      BLIVA結(jié)合了兩種互補(bǔ)的視覺嵌入類型。一種是Salesforce InstructBLIP提取的學(xué)習(xí)查詢嵌入,用于關(guān)注與文本輸入相關(guān)的圖像區(qū)域;另一種是受Microsoft LLaVA啟發(fā)提取的編碼修補(bǔ)嵌入,直接從完整圖像的原始像素修補(bǔ)中獲得。

      研究人員表示,這種雙重方法允許BLIVA同時(shí)利用針對(duì)文本定制的精煉查詢嵌入,以及捕捉更多視覺細(xì)節(jié)的更豐富的編碼修補(bǔ)。

      BLIVA 使用大約550,000個(gè)圖像標(biāo)題對(duì)進(jìn)行了預(yù)訓(xùn)練,并使用150,000個(gè)視覺問答示例調(diào)整了指令,同時(shí)保持視覺編碼器和語言模型凍結(jié)。

      在多個(gè)數(shù)據(jù)集上,BLIVA的表現(xiàn)明顯優(yōu)于InstructBLIP等其他模型。例如,在OCR-VQA數(shù)據(jù)集上,BLIVA的準(zhǔn)確率達(dá)到65.38%,而InstructBLIP只有47.62%。

      研究人員認(rèn)為這證明了多嵌入方法對(duì)廣泛的視覺理解的益處。BLIVA還在YouTube視頻縮略圖數(shù)據(jù)集上取得了92%的準(zhǔn)確率。BLIVA識(shí)讀圖像文本的能力可應(yīng)用于許多行業(yè),如識(shí)別路牌、食品包裝等。BLIVA有望改善現(xiàn)實(shí)世界中的多種應(yīng)用。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    海報(bào)生成中...

    最新新聞

    熱門新聞

    即時(shí)

    全球頂級(jí)AI創(chuàng)作社區(qū)回歸!海藝AI國內(nèi)首發(fā)“全民娛樂化創(chuàng)作

    海藝AI的模型系統(tǒng)在國際市場上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。

    新聞

    市場占比高達(dá)35.8%,阿里云引領(lǐng)中國AI云增長

    9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。

    企業(yè)IT

    華為坤靈發(fā)布IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃,助力中小企

    9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。

    3C消費(fèi)

    雅馬哈推出兩款高端頭戴耳機(jī)YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機(jī),分別是平板振膜的YH-4000和動(dòng)圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機(jī)器人出貨量同比暴

    IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺(tái),同比增長33%,顯示出品類強(qiáng)勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |