生成式 AI 這兩年的快速發展,使得不少 AI 界知名人士開始預測,5~10 年之內就會出現 AGI(強人工智慧),AGI 的定義就如電影所拍攝的一樣,不管是情感、思考還是學習等方面,都與人類相似度極高的 AI。
在 ChatGPT 問世後,AGI 的討論浮上水面,而今年 OpenAI 所發表的強大模型-Sora,Sora 對於這個世界物理規律的理解程度,又再次讓大家認為,接近人類的 AI 真的要來了!
Sora 誕生,加速影片生成 AI 發展,提升晶片計算量
OpenAI 在今年2月所發表的 Sora,為影片生成領域跨出一大步,它在影片品質、時長等方面都遠超其他競爭者,由於影片是一張張的圖片所組成,因此需要的晶片計算量、儲存量比起圖片、文字還來得更大,對於輝達(NVDA)、超微(AMD)、博通(AVGO)等這類 AI 晶片設計公司來說,無疑是一大利多。
其實 Sora 並不是第一個輸入文字描述,就可以讓 AI 生成影片的模型,它之所以能驚艷全世界,是因為它能生成高品質、高連貫性且長達1分鐘的影片,在此之前的模型大約都只能生成 10 秒以內的影片,甚至更短,而且品質堪憂,有時生成的結果還與使用者輸入的文字相去甚遠。
雖然有些人會解釋到,這是因為Sora的模型是基於 Diffusion Transformer(DiT)。大多影片生成 AI 模型也都以Diffusion 為主,但 Sora 將其中用來生成影片的架構 U-Net 改成 Transformer ,Transformer 是目前大型語言模型(LLM)所使用的主流架構,因為它會去找目前已生成的這個字和每個可能的字的關聯程度,再去決定下個字該是什麼,有一點迭代的感覺,使得這個架構可以很容易的生成很長且連貫的文章,這樣一來,也不難理解為什麼 Sora 生成的影片比起其他模型,更有長、更有連貫性。
白話文理解 Diffusion 模型和 U-Net、Transformer 的關係:
現在有一張很模糊的圖片,然後模型需要透過不斷訓練和學習(這個步驟要使用 U-Net 或者 Transformer 等架構),去了解這張模糊的圖片,哪個部分是值得留下來的,從而去讓這張照片越來越清晰。
上述整個過程稱為 Diffusion,不過 U-Net 並不是沒有優點,相對於 Transformer,它在判斷圖片有哪些部分值得留下來上,較有優勢。
但 DiT 不是 Sora 所發明的, 所以 Sora 的成功並非是模型有多厲害或多創新,這樣的品質仍就要歸功於 OpenAI 強大的算力和龐大的訓練數據(資本的力量),從而打破過去 AI 生成的影片只能拿來炫技或被當迷因,創造出符合真實世界的物理定律,並且對於輸入的文字有高度理解的影片。
讀者可以至 YouTube 搜尋「Sora, Runway, Pika」,了解 Sora 和過去這兩個模型究竟有多大差別。如:Pasting Sora prompts in Runway, Stable Video, Morph & other AI video generators。
但畢竟 Sora 所生成的影片,也還是以「機率」去建構這個世界,所以並非100%正確,就像是萬有引力存在地球上是確定的,只要我們把一顆蘋果拋在空中,它一定會墜地,但在 Sora 的世界不是,它的理解可能會是99%的時間,蘋果都會墜地,所以現階段來說並非完美。
雖然 OpenAI 尚未向大眾開放使用 Sora,但已經有許多人開始想像它未來的應用,包括影視和遊戲產業等,此外,也需關注對於多模態的影響,因為 Sora 的誕生,意味著 OpenAI 越來越接近它們的目標-AGI。若有天 OpenAI 將目前現有的模型,包括GPT、Sora、DALL-E 結合,那將會成為下個生成式 AI 出圈的熱門話題。
理財工具推薦
下載Money錢 - 理財知識隨身讀APP
提供最優質的財經文章、影音
1.股市、保險、房地產,掌握最新財經動態 2.專家、名人駐站,提供深度產業分析 3.課程、影音專區,讓動手深度學習 下載【Money錢 - 理財知識隨身讀】,提前預約財富自由!