" />
Sora是一款獨特的視頻生成工具,其工作原理深入淺出,值得我們深入了解。something new/old創(chuàng)始人brett goldstein在X上給大家拆解了Sora工作原理,通俗易懂。
Sora的工作原理結合了擴散模型和Transformer架構。擴散模型從噪聲開始,逐漸精細化到所需的視頻。而Transformer架構則負責處理連續(xù)的視頻幀,確保視頻中的動作流暢自然。
Sora的獨特之處在于其處理視頻生成的方法。它不是直接將文本轉換為視頻幀,而是依賴于所謂的“空間時間補丁”。這種方法不直接將文本轉換為視頻幀,而是處理空間(發(fā)生的事情)和時間(何時發(fā)生)的快照。這可以看作是微觀視頻拼圖的每一小塊。
時空立方體:
通過這種方式,Sora將視頻視為一個包含空間和時間維度的巨大立方體,然后再將其切割成更小的立方體,每個立方體代表空間和時間的片段。
剖析描述并確定了核心要素:
• 物體(盛開的花朵、陽光普照的窗臺)
• 行動(隨著時間的推移而增長)
• 位置(郊區(qū)環(huán)境)
• 甚至藝術風格(定格動畫美學)
為了能夠將這些補丁有意義地組合成一個連貫的視頻,Sora利用了其內部的知識圖譜。這些知識圖譜包含了關于物理世界、對象如何相互作用,甚至包括不同藝術風格的信息。借助這些知識,Sora能夠理解例如一朵花如何逐漸開放、如何與陽光互動以及如何保持停動畫風格等復雜過程。
在視頻生成的下一階段,擴散模型開始對每個嘈雜、抽象的補丁進行處理,逐漸精細化,直至最終呈現出清晰的圖像。而Transformer架構則負責分析時間跨度上補丁之間的關系,確保視頻中的動作流暢自然,停動畫風格在整個視頻序列中保持一致。
盡管Sora能夠執(zhí)行各種與視頻相關的任務,并展現出驚人的視頻生成能力,但仍有一些挑戰(zhàn)需要克服。例如,它在模擬一些基礎物理互動的精確性方面還有待提高,有時會產生不自然的效果,如人物的手勢看起來不夠真實。盡管如此,Sora在視頻生成技術方面展示了巨大的潛力,為未來的人工智能應用開辟了新的可能性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。