在剛剛過(guò)去的春節(jié),科技界再次見(jiàn)證了一場(chǎng)顛覆性技術(shù)革命的誕生,2月16日凌晨OpenAI悄無(wú)聲息向業(yè)界扔出一枚“王炸”——正式發(fā)布了首款文生視頻模型"Sora",繼文本、圖像之后,OpenAI在視頻領(lǐng)域放出大招,AI文生視頻技術(shù)邁入了一個(gè)全新的發(fā)展階段。
首款文生視頻模型Sora
OpenAI官方表示:“Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),相信這一功能將成為實(shí)現(xiàn)AGI的重要里程碑。”
AI 文生視頻技術(shù)
根據(jù)OpenAI官方發(fā)布的技術(shù)報(bào)告以及對(duì)外展示的48個(gè)視頻,Sora是基于Transformer架構(gòu)的文本條件擴(kuò)散模型,能夠根據(jù)文本提示生成長(zhǎng)達(dá)一分鐘的視頻,甚至能夠擴(kuò)展現(xiàn)有視頻。
OpenAI官方發(fā)布的技術(shù)報(bào)告
Sora的技術(shù)報(bào)告還強(qiáng)調(diào)了其在理解復(fù)雜場(chǎng)景、物理屬性和場(chǎng)景關(guān)系方面的能力,以及在圖像和視頻編輯任務(wù)上的靈活性。
Sora生成的視頻不僅在視覺(jué)上具有高清畫(huà)質(zhì),而且在光影處理、物理效果(如遮擋和碰撞)、運(yùn)動(dòng)連續(xù)性等方面表現(xiàn)出接近真實(shí)世界的水平,相較于以往模型在生成視頻時(shí)可能出現(xiàn)的人物形象不一致等問(wèn)題,Sora還能準(zhǔn)確呈現(xiàn)角色和視覺(jué)風(fēng)格的一致性,使得視頻場(chǎng)景更加自然連貫。
這些特性使得Sora在制作短視頻、動(dòng)畫(huà)、電影畫(huà)面和視頻游戲渲染方面展現(xiàn)出巨大的潛力。
Sora的特性
Sora一經(jīng)發(fā)布,迅速在全球范圍內(nèi)掀起驚濤巨浪,馬斯克在X平臺(tái)回復(fù)網(wǎng)友“gg humans”,AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela感嘆以前需要花費(fèi)一年的進(jìn)展,變成了幾個(gè)月就能實(shí)現(xiàn),又變成了幾天、幾小時(shí)。
Sora被認(rèn)為在人工智能領(lǐng)域取得了重大突破,它的出現(xiàn)被視為通用人工智能(AGI)實(shí)現(xiàn)的重要里程碑,360董事長(zhǎng)周鴻祎認(rèn)為Sora意味著AGI實(shí)現(xiàn)將從10年縮短到1年,并且可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來(lái)巨大的顛覆。
《MIT科技評(píng)論》主編指出:“Sora的出現(xiàn),無(wú)疑是人工智能發(fā)展歷程中的一個(gè)里程碑,它的誕生意味著我們正逐步接近一個(gè)‘文字即視頻’的新時(shí)代。”
中國(guó)科學(xué)院空天信息研究院的譚劍副研究員表示:“Sora的出現(xiàn),開(kāi)啟了創(chuàng)作力和想象力的時(shí)代。”他進(jìn)一步指出,Sora在理解地球物理世界的規(guī)律方面取得了巨大進(jìn)展,這不僅僅是技術(shù)上的突破,更是對(duì)傳統(tǒng)計(jì)算機(jī)圖形學(xué)領(lǐng)域的一次顛覆。
不過(guò)也有人對(duì)其帶來(lái)的內(nèi)容真實(shí)性問(wèn)題和倫理考量表示擔(dān)憂(yōu),指出“確保內(nèi)容的真實(shí)透明成為了一個(gè)重要議題”;圖靈巨頭LeCun認(rèn)為,僅根據(jù)文字提示生成逼真的視頻,并不代表模型理解了物理世界。生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。
Sora的發(fā)布讓文生視頻技術(shù)進(jìn)入新的發(fā)展階段,會(huì)逐步打破傳統(tǒng)的內(nèi)容創(chuàng)作模式,給廣告、游戲、影視等行業(yè)帶來(lái)前所未有的挑戰(zhàn)和機(jī)遇。
隨著技術(shù)的迭代,企業(yè)能高效低成本地進(jìn)行產(chǎn)品演示、內(nèi)容制作、廣告創(chuàng)意設(shè)計(jì)等多元化的數(shù)字內(nèi)容生產(chǎn),這將進(jìn)一步加速企業(yè)向智能化內(nèi)容創(chuàng)作與傳播的轉(zhuǎn)型步伐,并可能重塑未來(lái)多媒體信息生態(tài)。