Kling AI推出O1模型首款整合影片生成與編輯多模態架構

生成式AI領域再度迎來重大技術突破，中國市場的快手科技旗下的 Kling AI 正式發表 Video O1 與 Image O1模型，這是業界首款採用統一架構的多模態模型，將影片生成、編輯與理解功能整合在單一平台上。這項技術讓創作者將不再需要頻繁切換不同的工具或模型，即可完成從創意發想到後製剪輯的完整工作流程。此外，數位創意平台 Pixazo 也同步宣佈整合Kling O1 API，讓開發者能將此強大功能導入自身的應用程式中。

單一模型解決複雜創作需求

過去，AI 通常比較各做各的，處理文字的 AI 看不懂圖，處理圖片的 AI 讀不懂文章。若要生成影片步驟更加繁複，可能需要 A 模型先處理文字，再傳給 B 模型生成圖片，最後 C 模型拿到圖片檔案後生成影片動起來。生成素材與後製編輯通常需要依賴不同的軟體或模型。

而這次 Kling AI O1模型的最大特點在於其統一的架構，能夠同時處理圖像、影片、主體與文字等多種輸入訊號。無論是文字轉影片、圖像轉影片，甚至是影片內容的修改與風格轉換，都能在同一個模型中完成。

對於影視產業工作者而言，這項技術大幅降低了操作門檻。Video O1 模型支援以自然語言進行後製編輯，使用者只需輸入如「移除路人」、「將白天改為黃昏」或「更換主角服裝」等提示詞，模型便能精準理解並執行指令，同時保持影片中主體、場景與道具的一致性，解決了過去AI生成影片常見的角色不連貫問題。

實測成績表現超越國際大廠

根據 Kling AI 公布的內部盲測資料顯示，Video O1 在多項指標上均優於目前市面上的主流競品。在圖像參考影片生成的項目中，Video O1 的勝率達到 Google Veo 3.1 Fast 的247%；而在指令轉換的表現上，也比 Runway Aleph 高出230%。

該模型目前支援生成 3 至 10 秒的影片，並具備強大的多工處理能力。使用者可以在單一提示詞中包含多個指令，例如「在影片中增加一名角色並同時修改背景」，模型能夠一次性完成這些複雜的運算，大幅提升創作效率。

Image O1 強化精細編輯能力

同步推出的 Image O1 模型則專精於靜態影像的處理，其具備強大的多模態推理能力，並且能夠同時處理多達10張參考圖像，進行重新排列、風格轉換或特徵提取。對於設計師而言，這意味著可以透過簡單的草圖生成逼真的3D渲染圖，或是精準控制光影方向，無需專業的修圖技能便能夠進行物體的增減與修改。

Pixazo 整合 API 擴大應用生態系

為了讓這項技術能被更廣泛應用，Pixazo 宣布將 Kling O1 API 整合至其生態系中。Pixazo 執行長Abhinav Girdhar 表示，Kling O1 的出現讓開發者能夠構建出更直覺、低摩擦的創意工具。透過 API，企業與開發者可以將這種電影級的視覺生成與編輯能力，直接嵌入到電子商務、廣告行銷或內容創作的平台中，加速自動化內容生產的發展。

目前已經有工作流可以整合多個影片畫面生成後再連接起來，幫助用戶快速抽卡後有一個比較快的自動化流程，減少繁雜的素材處理工作時間，影像工作室、廣告、行銷等公司會比較快受惠，而影視產業仍還需要較多時間才有辦法讓相關技術更融入流程。

目前的成品離影視工業要的標準還有一段距離，需要人工去調整的部分還很多，抽卡抽一堆的素材不見得好用，但偶爾會有值得採用的片段和素材，而相關技術的演進，應該會加快這部分導入後的實績和成果。

這項技術的普及，預期將對電影製作、時尚設計及廣告行銷產業帶來深遠影響。設計師可利用虛擬模特兒快速生成產品展示圖，電影製作人則能透過 AI 快速驗證分鏡腳本或進行後期特效處理，縮短部分專案的製作週期。

首圖 Google Gemini AI 生成

新版升級的 Veo 3 影片生成 AI ，還整合進 Google Photos

Z-Image Turbo AI 實測，當前最佳地端 AI 圖像生成模型

ComfyUI v0.3.76 新版搭配 NVIDIA DGX Spark 實戰 Z-Image Turbo 的效能揭密

Qwen Image AI 圖像模型效果佳，本地端 AI 算圖新選擇

標籤: AI AI影片編輯 AI後製 Kling AI O1模型 Pixazo API 多模態模型影片生成影視製作生成式AI

Kling AI推出O1模型首款整合影片生成與編輯多模態架構

Linux 核心重大安全漏洞 Copy Fail 及各大廠修補進度

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

特斯拉Optimus跑步畫面曝光傳第三代將整合Grok AI

AI 下一步是模仿大腦科技大廠挖角神經科學家佈局次世代演算法

Ashley Hsieh

相關文章

Linux 核心重大安全漏洞 Copy Fail 及各大廠修補進度

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

把 AI 關進 1930 年的圖書館，Talkie 呈現有年代感的大語言模型

AI 審判開打：馬斯克指控 OpenAI 背叛非營利初心，Altman 陣營反擊「競爭者抹黑」

微軟與 OpenAI 終止獨家綁定與營收分成，AI 雲端重新洗牌

AI 下一步是模仿大腦科技大廠挖角神經科學家佈局次世代演算法

美光 Crucial 全力轉攻 AI 市場，將逐步關閉消費級 DRAM 與 SSD 產品線

推薦閱讀

Linux 核心重大安全漏洞 Copy Fail 及各大廠修補進度

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

把 AI 關進 1930 年的圖書館，Talkie 呈現有年代感的大語言模型

AI 審判開打：馬斯克指控 OpenAI 背叛非營利初心，Altman 陣營反擊「競爭者抹黑」

近期熱門

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

把 AI 關進 1930 年的圖書館，Talkie 呈現有年代感的大語言模型

GPT-5.4 醫療評測表現超越人類醫師，近期也推出 ChatGPT for Clinicians

告別數位囤積與 RAG 碎片化！實作 Obsidian LLM-Wiki 打造全自動進化的個人知識庫

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

微軟與 OpenAI 終止獨家綁定與營收分成，AI 雲端重新洗牌

AI 審判開打：馬斯克指控 OpenAI 背叛非營利初心，Altman 陣營反擊「競爭者抹黑」

GitHub 趨勢週報 Vol.12：AI 代理與開發架構工具的新進展

NVIDIA 釋出佛心大禮包？免費用 1 年頂級 AI 模型 API 解析與教學

不想用 OpenClaw 的開發者轉向 Hermes Agent

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

Kling AI推出O1模型 首款整合影片生成與編輯多模態架構

RELATED POSTS

單一模型解決複雜創作需求

實測成績表現超越國際大廠

Image O1 強化精細編輯能力

Pixazo 整合 API 擴大應用生態系

特斯拉Optimus跑步畫面曝光 傳第三代將整合Grok AI

AI 下一步是模仿大腦 科技大廠挖角神經科學家佈局次世代演算法

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

Kling AI推出O1模型首款整合影片生成與編輯多模態架構

特斯拉Optimus跑步畫面曝光傳第三代將整合Grok AI

AI 下一步是模仿大腦科技大廠挖角神經科學家佈局次世代演算法