模型架構

  根據官方介紹,LongCat-Image采用文生圖與圖像編輯同源的混合骨干架構(MM-DiT+Single-DiT),并整合了視覺語言模型(VLM)條件編碼器。其主要技術特點包括:

  1. 集成生成與編輯:模型支持通過文本提示生成圖像,并可通過自然語言指令對圖像進行多輪編輯。官方列舉了包括對象添加/移除、風格遷移、背景替換、文本修改等在內的15類編輯任務,并宣稱在多輪編輯中能保持圖像風格、光照的一致性。

  2. 中文文本渲染能力:模型強調對中文文本生成的支持,聲稱能夠處理標準漢字、生僻字及部分書法字體,并可根據場景自動調整字體、大小和排版。技術實現上,模型通過預訓練階段學習字形,并在后續訓練中引入真實世界文本圖像數據以提升泛化能力。

  3. 輸出效率與質量:通過模型結構輕量化與訓練策略優化,宣稱可在消費級GPU上實現高效推理,并生成具有“攝影棚級”細節的圖像。

  在性能評估方面,官方提供了部分基準測試數據:

  1. 在圖像編輯基準測試GEdit-Bench和ImgEdit-Bench中,LongCat-Image得分分別為7.60/7.64(中英文)和4.50,均達到開源模型中的領先(SOTA)水平。

  2. 在中文文本渲染專項評測ChineseWord中,得分為90.7分。

  3. 在文生圖基礎能力測試GenEval和DPG-Bench中,得分分別為0.87和86.8。

  目前,該模型已在GitHub平臺開源,其功能可通過LongCat APP或網頁端(longcat.ai)進行體驗。官方表示,此次開源旨在支持從研究到商業應用的全流程,并邀請開發者參與共建。

  此次開源動作顯示出美團在AIGC領域,特別是針對中文市場及復雜圖像編輯需求的技術布局。開源策略有助于其吸引開發者生態,并在快速發展的圖像生成領域建立影響力。

中文科技資訊微信二維碼logo

  文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

海報生成中...

瀏覽

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

新聞

市場占比高達35.8%,阿里云引領中國AI云增長

9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |