生成式AI領域再度迎來重大技術突破,中國市場的快手科技旗下的 Kling AI 正式發表 Video O1 與 Image O1模型,這是業界首款採用統一架構的多模態模型,將影片生成、編輯與理解功能整合在單一平台上。這項技術讓創作者將不再需要頻繁切換不同的工具或模型,即可完成從創意發想到後製剪輯的完整工作流程。此外,數位創意平台 Pixazo 也同步宣佈整合Kling O1 API,讓開發者能將此強大功能導入自身的應用程式中。
單一模型解決複雜創作需求
過去,AI 通常比較各做各的,處理文字的 AI 看不懂圖,處理圖片的 AI 讀不懂文章。若要生成影片步驟更加繁複,可能需要 A 模型先處理文字,再傳給 B 模型生成圖片,最後 C 模型拿到圖片檔案後生成影片動起來。生成素材與後製編輯通常需要依賴不同的軟體或模型。
而這次 Kling AI O1模型的最大特點在於其統一的架構,能夠同時處理圖像、影片、主體與文字等多種輸入訊號。無論是文字轉影片、圖像轉影片,甚至是影片內容的修改與風格轉換,都能在同一個模型中完成。
對於影視產業工作者而言,這項技術大幅降低了操作門檻。Video O1 模型支援以自然語言進行後製編輯,使用者只需輸入如「移除路人」、「將白天改為黃昏」或「更換主角服裝」等提示詞,模型便能精準理解並執行指令,同時保持影片中主體、場景與道具的一致性,解決了過去AI生成影片常見的角色不連貫問題。
實測成績表現超越國際大廠
根據 Kling AI 公布的內部盲測資料顯示,Video O1 在多項指標上均優於目前市面上的主流競品。在圖像參考影片生成的項目中,Video O1 的勝率達到 Google Veo 3.1 Fast 的247%;而在指令轉換的表現上,也比 Runway Aleph 高出230%。
該模型目前支援生成 3 至 10 秒的影片,並具備強大的多工處理能力。使用者可以在單一提示詞中包含多個指令,例如「在影片中增加一名角色並同時修改背景」,模型能夠一次性完成這些複雜的運算,大幅提升創作效率。
Image O1 強化精細編輯能力
同步推出的 Image O1 模型則專精於靜態影像的處理,其具備強大的多模態推理能力,並且能夠同時處理多達10張參考圖像,進行重新排列、風格轉換或特徵提取。對於設計師而言,這意味著可以透過簡單的草圖生成逼真的3D渲染圖,或是精準控制光影方向,無需專業的修圖技能便能夠進行物體的增減與修改。
Pixazo 整合 API 擴大應用生態系
為了讓這項技術能被更廣泛應用,Pixazo 宣布將 Kling O1 API 整合至其生態系中。Pixazo 執行長Abhinav Girdhar 表示,Kling O1 的出現讓開發者能夠構建出更直覺、低摩擦的創意工具。透過 API,企業與開發者可以將這種電影級的視覺生成與編輯能力,直接嵌入到電子商務、廣告行銷或內容創作的平台中,加速自動化內容生產的發展。
目前已經有工作流可以整合多個影片畫面生成後再連接起來,幫助用戶快速抽卡後有一個比較快的自動化流程,減少繁雜的素材處理工作時間,影像工作室、廣告、行銷等公司會比較快受惠,而影視產業仍還需要較多時間才有辦法讓相關技術更融入流程。
目前的成品離影視工業要的標準還有一段距離,需要人工去調整的部分還很多,抽卡抽一堆的素材不見得好用,但偶爾會有值得採用的片段和素材,而相關技術的演進,應該會加快這部分導入後的實績和成果。
這項技術的普及,預期將對電影製作、時尚設計及廣告行銷產業帶來深遠影響。設計師可利用虛擬模特兒快速生成產品展示圖,電影製作人則能透過 AI 快速驗證分鏡腳本或進行後期特效處理,縮短部分專案的製作週期。
本文題圖 Google Gemini AI 生成








