潮新聞 記者 金春華 何冬健 姚穎康 朱高祥
分鏡頭多角度,畫面精細流暢,時長是此前市場上產品的2~5倍……2月16日,曾因ChatGPT一炮走紅的人工智能研究公司OpenAI推出的文生視頻大模型Sora,令全球從事文字、音視頻以及科技的工作人士驚嘆不已。
就在OpenAI已公布的演示視頻中,我們看到一名時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街頭;看到兩艘海盜船在咖啡杯中纏斗,咖啡如海浪洶涌;看到可愛的水獺穿著黃色救生衣站在滑板上沖浪……惟妙惟肖,與實景拍攝、高清特效無異。網友的評價也出奇一致:炸裂!驚艷!顛覆!
而這,也被視作整個AI產業、視頻產業的新挑戰、新機遇。連日來,有人為新“風口”的到來振奮不已;有人如音視頻領域從業者感受到了危機:“要失業了?!?/p>
Sora到底厲害在哪里?它又將掀起哪些新的浪潮?
意料之中與出乎意外
“沒想到這一天來得這么快!”“沒想到效果這么有顛覆性?!边@是記者采訪業界人士時聽到最多的兩句話。
盡管截至記者發稿,Sora尚未公開發布或未公測,有的只是OpenAI公布的數十段演示視頻。但前有ChatGPT為證,后有Sora遠超其他模型的效果——任誰都會思考,一個新的時代是否來了?
Sora可簡單視作一個人工智能視頻生成工具:只需我們輸入一段文字,它就能創建一個與真實世界接近的虛擬世界,時長可達60秒。此前在文生視頻領域,谷歌、Meta、Runway、Pika等產品大都在30秒甚至10秒之內。
更讓人嘖嘖稱奇的是,Sora生成的視頻,無論是光影色彩的轉變,還是多鏡頭多角度的切換,甚至細微到紋理結構變化,都呈現出“大片感”。
“Sora還能模擬現實世界的物理規律。這尤其有難度?!卑⒗锇桶痛竽P退惴▽<也苡钆e例說,其中有一段視頻展現的是兩艘船在咖啡中戰斗,Sora精準呈現了咖啡流動的流體動力學效果。
要知道,在文字、圖片、視頻等不同體裁中,視頻生成是最難的。Sora不僅要理解文本指令的含義,即語義理解能力,不能輸入“女孩”出來一“老頭”,也不能違背邏輯與物理規則,如輸入“狗坐在椅子上”出來“狗嵌入了椅子”;生產效果要好,畫面流暢程度、穩定性、連貫性等都不能缺,比如太陽在左上角,不能右下角又無故生出陽光;還有就是時長,時間越長,視頻表現力越強,AI“露餡”的可能性也越大。
Sora有遠超同類的表現,其核心技術與底層邏輯卻被普遍認為“還是老一套”,即時空Patch技術和DiT架構。前者的技術論文由谷歌DeepMind團隊于2023年7月發表。后者的技術論文,是Sora團隊領導者之一William Peebles與另一位科學家合作的。記者瀏覽了OpenAI公布的參考文獻清單,其中有很多出自谷歌、Meta、微軟、斯坦福、MIT、UC伯克利等機構的成果。也就是說,Sora的誕生源于整個AI社區多年來的探索,是“意料之中”的事情。
“事實上,Sora依然遵循OpenAI的規模理論——大量數據、大模型和大量算力?!闭憬髮W杭州國際科創中心求是科創學者、AI交叉中心專家丁科炎估計,Sora與ChatGPT一樣,也是來自大力出奇跡的“暴力美學”。
新年伊始,丁科炎(左)與張強在一起暢聊大模型發展。記者 姚穎康 攝
此前,AI視頻創業公司Runway和Pika被認為是視頻生成賽道的佼佼者,如今卻被Sora輕松“吊打”。業內人士分析,Sora制勝之道,一在其使用的圖文對、視頻等的數量比這兩家大一個量級以上;二在算力堆疊的效果更好。
在杭州城市大腦有限公司CEO申永生看來,Sora體現了AI對現實世界的理解已更上一層樓,“它在訓練中結合了多種先進的算法,比如masked(遮掩)算法,把一個畫面隨機遮掩掉30%局部,讓AI根據對畫面整體理解還原出來,同時利用生成式算法讓畫面比原作更富有創意。”
曹宇則表示,Sora的基礎架構Transformer能實現“作文續寫”,相比于傳統“完形填空”式的技術擁有更優秀的創作能力。
“打個比方,我們可以將一堆雜亂無章的積木整理好放入一個個小盒子中。如此一來,即便面對眾多積木,只要找到了這個小盒子就能輕松找到所需積木。”丁科炎也給出自己的解讀,由于前期用于訓練的海量視頻數據被轉化成一個個“小方塊”,當我們向Sora提供一個新任務時,AI就會從視頻數據中提取出一些包含時間和空間信息的“小方塊”,并將之交給Sora,讓其根據這些信息生成新視頻。
“某種程度上,Sora已經可以像人一樣,對世界有了一定認知?!倍】蒲渍f。
浪漫與現實
Sora帶來的產業變革,被視作技術進步產生的“浪漫”。
“相比于ChatGPT,Sora的產業空間更廣,影視劇、游戲視頻、廣告策劃、創意和設計可視化、數字孿生、自動駕駛、醫療等都是它的舞臺?!鄙暧郎硎荆曨l與文本有著本質的區別,其開放空間很大,“比如我們在做城市大腦新場景應用的推廣宣傳片時,以前要么是找人拍,要么做動漫,成本很高,創新挑戰的壓力也很大;有了Sora這類新工具,我們可以用更少的成本、更快的速度、更貼近現實的視頻來做推廣,效果也會更好?!?/p>
這種強大的生成能力,或將打開AIGC新的空間,特別是突破知識產權領域的瓶頸。
浙大杭州國際科創中心借助AI工作的“合成生物學自動化科學裝置”。 浙大杭州國際科創中心供圖
浙江震天律師事務所律師錢航告訴記者,是否具有“獨特個性”,是傳統著作權法理論判斷一件創作物是否是作品的關鍵因素之一。此前不少專家反對人工智能創作物具有獨創性,主要認為人工智能的創作物是算法、模板等統一產生的結果,“但現在看來,一方面Sora等新工具的創新能力明顯更強;另一方面,Sora生成視頻的好壞也更受制于提示文本的好壞、文本創作者創意的好壞,其獨創性也更明顯?!?/p>
更重要的是,Sora一旦公開投用,其強大的能力肯定會被大量用于商業用途,成為具備經濟價值的交易客體,隨之也會產生越來越多的法律問題。錢航認為:“當下應該盡快立法,明確人工智能創作物的法律屬性,完善相關權利保障體系,一方面激勵人工智能及相關產業發展,一方面維護現有版權秩序。”
很多“浪漫遐想”已經展開。
浙江省工業和信息化研究院區域經濟研究所所長趙立龍認為,隨著Sora的到來,其“模擬數字世界”能力將對元宇宙發展產生顛覆性影響。它不僅能夠直接根據需求生成虛擬視頻,迅速構建元宇宙所需的場景,而且其展現出了直接生成可深入探索的動態虛擬空間的潛力,這意味著元宇宙將進入到全新的發展階段。