8月31日,上海人工智能實驗室(上海AI實驗室)宣布開源發布多模態大模型書生·萬象InternVL5。該模型通過創新的級聯式強化學習(CascadeRL)、動態視覺分辨率路由與解耦部署架構,實現了推理能力、部署效率與通用能力的全面升級。
8月13日,在FORCELinkAI創新巡展·青島站,火山引擎宣布旗下產品AI數據湖服務LAS上線“算子廣場”,該功能進一步增強了企業對文本、圖像及音視頻的處理能力,加速企業知識資產的自動化流通與增值。
在虛擬現實、元宇宙技術快速發展的背景下,三維虛擬內容創作的高成本與低效率問題一直是行業痛點。近日,浙江大學計算機科學與技術學院博士研究生、魔芯科技陳天潤帶領團隊,依托浙江大學鯤鵬昇騰科教創新卓越中心提供的算力支持,實現了基于昇騰平臺NPU的首個三維模型生成算法模型Img2CAD的開發。
把這個活兒都交給扣子空間!24小時為你服務,手把手教學:從零生成專業PPT3步生成專業PPT的極簡流程
近日,Inclusion AI 與 螞蟻集團聯合推出了一款名為 “Ming-Omni” 的先進多模態模型,標志著智能技術的新突破。
今天,無線藍牙耳機(TWS)已經成為人人都用得起的產品。
多模態推理技術的發展正助力智能駕駛能力升階。
今年2月初,谷歌發布的Gemini2.0Pro支持200萬上下文,震驚了整個大模型領域。
在多模態人工智能領域,智源研究院與多所高校合作推出了全新的多模態向量模型 BGE-VL,標志著多模態檢索技術的一次重大突破。
開年放大招!階躍星辰重磅升級 Step 系基座模型全家桶,一口氣連更上新6款模型。作為業內公認的「多模態卷王」,這家 AI 明星公司目前已擁有業內最全模型矩陣。
谷歌云(Google Cloud)日前發布了《2025年AI商業趨勢》報告,預測了AI在未來一年將如何重塑商業格局。
揚州無界矩陣最近以億級估值成功完成了超過千萬元的天使輪融資,投資方為力合金融。
在科技領域,多模態模型的決策能力一直是研究的熱點。最近,UC伯克利等高校的研究團隊提出了一種名為RL4VLM的全新強化學習框架,成功地提升了多模態大模型在決策任務上的表現。該模型在無需人類反饋的情況下,通過強化學習微調,已經學會了看圖玩撲克、算“12點”等任務,并且其表現超越了GPT-4v。
在科技領域,類人機器人Ameca的最新進化令人矚目。通過擁有視覺能力和多模態AI功能,Ameca不僅能夠觀察周圍環境,還能模擬人類的情感和反應。這種進化背后涉及了多領域技術的融合,包括語言模型、圖像生成和語音識別等。
2月28日,界面新聞從多個知情人士處獲悉,字節跳動正在AI大模型領域秘密研發多個產品,其中包括多模態數字人產品以及AI生圖、AI生視頻產品等。
Adept Fuyu-Heavy是一種新型的多模態模型,專為數字代理設計。據稱,它是世界上第三大能力超強的多模態模型,僅次于GPT4-V和Gemini Ultra。
多模態大模型將是AI下一個爆點。最近,通義千問VLM模型換新升級,超大杯性能堪比GPT-4V。最最重要的是,還能限時免費用。
最近一段時間,先是 OpenAI 推出 GPT-4V,讓大模型擁有了前所未有的圖像語義理解能力。
1月26日 消息:在最新的研究中,百度提出了一項名為UNIMO-G的統一圖像生成框架,旨在克服現有文本到圖像擴散模型面臨的挑戰。傳統模型主要根據簡潔的文本提示生成圖像,但文本描述的簡潔性限制了生成復雜細節圖像的能力。
騰訊研究院發布了影響2024年的十大科技應用趨勢。
近日,摩根大通推出了DocLLM,這是一種為多模態文檔理解而設計的生成式語言模型。DocLLM作為LLM的輕量級擴展,用于分析企業文檔,涵蓋了形式、發票、報告、合同等在文本和空間模態交匯處具有復雜語義的文檔。
企業成長能力是隨著市場環境的變化,企業資產規模、盈利能力、市場占有率持續增長的能力,反映了企業未來的發展前景。
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。