AI 革新躍進:2024 OpenAI Sora

2024年2月15日，OpenAI發表新的AI模型Sora，可以用文字生成影片。造成轟動的是，Sora展示的視頻都是1920×1080 HD高傳真，長達一分鐘的影片。影片的創意水平，角度切換，燈光呈現，細微真實度，如同來自硬體攝影機。把目前所有AI圖像生成的產品，一網打盡，丟入深淵。能做60個一分鐘影片，就能剪接成一個小時電影。回想，一年前AI換臉技術才剛剛起步。如今，AI科技進步之快，真的超乎大家的預期。正如我說，2023是水兔年，兔屬陰木，是小草，代表快速成長，想象創新；也是雜草，相互競爭。2024是甲辰木龍年，龍中也有陰木小草，甲木是大樹，異軍突起，一枝獨秀，傲視群雄。2024不能跑在AI前端的公司，那就太慢了，很難追上。Sora將會在2024年推出。我們應該要與時俱進，盡量去了解AI科技，不然很快會變成AI文盲。

https://openai.com/sora

AI 領頭羊 openai.com

OpenAI有三個電腦系統平台。最紅的產品是眾所熟知的ChatGPT人工智慧的對話生成模型。它可以幫我們，信息查詢，創意寫作，情感諮詢，娛樂消遣。它可以成為我們在工作上事事通曉的得力助理。最新版本是GPT-4。現在GPT-5已經在發展中，目前最大的考量是它的安全性，2024年底會發表進度。

第二個產品是DALL·E人工智慧的圖像生成模型，能夠根據文字描述生成相應的圖像。可以根據使用者提供的文字描述創建多樣且逼真的圖像。DALL·E的應用範圍廣泛，包括創意設計、圖像生成、視覺效果等領域。DALL·E3的最新版本可以將圖片的細微和美學處理到淋漓盡致。

第三個產品是Sora是OpenAI開發的一種人工智慧工具，能夠將文字轉換為影片內容。簡單的說是將上述兩個系統整合，再向前推進。把圖片轉成動態影片。我們可以通過簡單的文字輸入來生成影片，而不需要專業的電影編輯技能和昂貴的設備。Sora將改變影片創作的方式，只要擁用電腦，去描述自己想要的情節影像，就能創造出自己的作品。https://openai.com/sora

高科技軟體公司Google谷歌前後推出的Bard和Gemini，聊天機器人和圖像生成，不斷釋出不正確的圖片和信息，Google都承認那是完全不能接受的錯誤。可見生成式Generative AI的推演，Google和OpenAI的基礎和功力，差距甚遠。其他國家或公司就不用比了。所以，OpenAI.com是生成式AI科技的領頭羊。

核心科技Diffusion and Transformer

Sora是如何生成影片呢？它是整合ChatGPT和DALL·E，文字和影像處理的兩個工具，稱為Diffusion Transformer Model擴散變壓器模型。語言文字的Transformer是將一個句子的所有關鍵字取出，每一個關鍵字設成一個結點node或（Token）。再將每一關鍵字和其他關鍵字之間找出相關性屬性，並計算出重要性的分數。它需要多次的修正，稱為編碼encoder。再來進行解碼decoder，將每一結點的關鍵字和句子的每一結點，逐字列出，也要多次的修正。如此就能知道句子最重要的含意。結點nodes相互連結的關念，被稱之為neural networks神經網路。

AI圖像生成需要先建立「圖像和文字」關係的neural networks神經網路。也就是OpenAI預先讀取4億張有文字標籤的圖像的對比關係，訓練出來的數據庫模型。此模型 (CLIP) 用來評估哪個標題最適合給DALL-E生成的圖像。此訓練過程稱Forward diffusion，主要利用Gaussian noise處理聲音影像原理，將圖像多次加上不同程度的噪音亂碼（像灑鹽吧）。從而獲得每一步驟有關圖像色彩光度質量參數，它是一系列具有不同峰值信噪的矩陣對比值，用來控制圖像質量。這些圖像的重要特徵，如同圖像的DNA，被儲存在數據庫的模型。它需要相當複雜的數學運算。簡單的關念，它是在做數字「底片」的資料庫，以後需要它，再把它取出來，還原影像印出照片。

DALL·E3文字生成圖像時，會參考數據庫圖像「底片」，進行Reverse Diffusion多次去除噪音亂碼，還原圖片到預定的解析度，同時修正補丁，添補新內容。也可以加入不同元素，融合不同風格等等，會經過不同圖像生成引擎修正細節，創造出全新的藝術作品。

至於文字生成影片的科技，本來市場上就有了，但是能力太差，品質太假，限制太多。OpenAI的 Sora 能夠生成多重人物，每人不同動作，可以瞬間變換主題，加入複雜背景，力求細節和精確，保證視覺質量。它能生成不同射影角度的鏡頭，讓影片準確保留角色和視覺風格（同時生成不同版本短片）。同時，Sora對語言的深度了解大幅提升，可以精準地生成帶有生動情感，有氣質的吸睛角色。

Sora文字生成影片的突破方法，首先要收集所有視覺數據visual data成統一的格式，以便進行大規模的生成模型訓練。它的生成模型必須要可以擴展影片和圖像的連續時間，長寬比率，高傳真解析度。2020到2023有四篇Vision Transformer重要文獻，可以解決這些問題。它剛好可以套用已經很熟悉的大型語言模型Transformer。就是把Sora的visual patches視覺補丁當成Tokens，就能適用於在各種類型的影片和圖像上訓練生成模型。

影片是由一串的連續圖像的組合。把每一張圖像依照解析度和寬高比，劃分成矩陣形的最小區塊叫做 patches補丁，記錄它的位置(空間)和持續時間，稱為Spacetime patches「時空區塊」。神經網路的訓練，就輸入原始影片，Transformer將「時空區塊」時間和空間的參數同時一起編碼壓縮變成latent「潛在規格」（想成digital底片，容易了解）。如此，影片生成時，補丁就能排列成適當大小的網格，輸出可調控的視頻大小和解析度。

每一張電影的畫面的生成，同樣要使用Diffusion擴散模型。將Gaussian noise噪音亂碼加入patches補丁來還原成高傳真的影像。讓人物影像在空間和時間的位移十分平滑，容易向前或向後擴展加長視頻時間，可以改變視頻風格，將不同兩個內容完美融合，影片亦可無縫循環接軌。千言萬語，不如親眼目睹實相。

https://openai.com/research/video-generation-models-as-world-simulators

AI 的遠慮近憂

OpenAI一直強調他們相當謹慎地發展具有「倫理道德」的人工智慧。如果OpenAI處理不當，他們的產品會遭遇美國國會的爭議，甚至停擺。為了應對這些擔憂，DALL-E3和Sora已經包含了限制生成暴力、成人或仇恨內容的安全措施。它還避免生成公眾人物的圖像，保護個人聲譽和隱私，減少誤導信息的風險。馬上面臨的棘手問題就是技術濫用，製造假信息，用來金錢詐騙，抹黑他人名譽，增加法律訴訟，用來洗腦大眾，造成社會恐慌，操縱公眾意見，影響教育學習，國家安全。DALL-E3和Sora會將每一影像圖片鑲入一個生成製造檔案。有人還建議加入「隱形浮水印」。但是，這些都可以用不同公司的AI工具，輕而易舉地去除。

基礎模型是人工智慧的基石。這些模型需要收集龐大的「高品質」數據進行訓練。GPT-3 的數據庫大致有4500 GB，使用叄數高達1750億個。GPT-4 的數據庫的估計將會增加到1,000,000 GB，使用叄數高達17兆個。依據AI研究機構估計，高品質的文字數據輸入，大概會在2026年完成。那就進入 artificial general intelligence (AGI) 時代。當AGI的模型植入機器人，對人類會造成相當程度的威脅。「低品質」數據是否再進入訓練，會有激烈的爭議和辯論。也會討論是否輸入AI自己創造生成的數據和圖片進入AI模型，再度進化。

輸入不同的「選擇性」數據也會造成AI的偏見，影響它的公平性和正確性。如同不同教育機構教導出來的學生，具有不同的才智。AI learning algorithms 人工智能的學習有不同的演算法，都十分深奧，會越來越複雜。將來訓練出問題，很難找到邏輯的過失或理論的缺陷。大多數的人們還是會把AI錯誤的資料當真。由於，人類的好奇和創新力，必定有人偷偷地設計狡滑，厚黑，邪惡，鬼計多端的AI模型。AI模型的對決，會發生。AI模型給人建議的決策如何取捨，會遇到挑戰。

免費的 Stable Diffusion 3

發展AI科技需要相當大的長期資金。2015年底，成立的OpenAI本來是非營利組織。它開發的軟體是開源的。因為投資者很不情願燒錢，OpenAI在2019年開始轉型，在非營利架構下，成立了一個商業營利單位。chatGPT在2022年11月問世，可以免費使用。2023年2月推出ChatGPT Plus付費版本，月費美金20元。2023收入超過16億美元。估計2024年收入會超過50億美元。因為資金的投入，微軟成為最大受益者，成為全球最大市值公司，超過30兆美元。

chatGPT和DALL·E都在網站伺服器運算，成本很高，所以要收費。真正免費服務需要把AI應用程式安裝在個人電腦。stability.ai擁有最強的免費圖像生成的AI模型Stable Diffusion，它可以在個人電腦生成高品質的圖片和動畫。2024年2月也宣佈Stable Diffusion 3可以用文字生成影片，生成3D模型，以及用文字修改圖像。同時，黃仁勳的Nvidia輝達公司也推出Chat with RTX的初版，讓我們可以在個人電腦上運行AI聊天機器人。2024確定是AI文明的大躍進之年。今年底一定會有新的驚喜。

2 thoughts on “AI 革新躍進:2024 OpenAI Sora”

Joylih on March 6, 2024 at 9:11 pm said:

謝謝你的精心分享！
Perfect timing….

Reply ↓
hung yu on July 23, 2024 at 7:28 am said:

請問現在還能拿取蔡博士的的「一位哈佛大學物理學博士《談靈性與明心見性》」的pdf檔案嗎

但因為不確定這個網站是否還有在運作，所以來此確認。

如果還能拿取的話，還請再回覆給我要向那個信箱或聯絡方式以用購買電子書證明換取下載連接，謝謝您

Reply ↓

信堅園地

World of Mastermind (聖賢境界)

AI 領頭羊 openai.com

核心科技Diffusion and Transformer

AI 的遠慮近憂

免費的 Stable Diffusion 3

2 thoughts on “AI 革新躍進:2024 OpenAI Sora”

Leave a Reply Cancel reply