在 AI 繪圖與影片生成如 Sora、Veo 持續熱門之際,Google 似乎已準備好開啟下一個 AU 內容生成的戰場,這次是音樂領域。
根據 Android Authority 的最新拆解報告 Gemini may soon do for music what Nano Banana has done for making pictures ,Google 正悄悄在 Android 版 Gemini App 中測試原生的 AI 音樂生成 功能。這意味著,過去僅存在於 Pixel 錄音工具或 YouTube Dream Track 實驗室中的音樂 AI,即將成為數十億 Android 用戶手中的新工具,也許會影響到目前由 Suno 和 Udio 等平台為主軸的 AI 音樂市場版圖。
另外,根據 CyberQ 之前報導過的這篇 HeartMuLa 開源音樂模型受高度矚目,挑戰商業級 AI 音樂生成品質,開源音樂模型方興未艾,AI 音樂相關的未來發展也值得關注。
Gemini 的音樂功能會是如何呢 ?
根據最新的 Google App(v17.2.51)APK 拆解程式碼顯示,Gemini 的功能清單中赫然出現了「Music」(音樂)選項,預期會有新的系統整合,其中,「My Stuff」整合讓生成的音樂,能和圖片一樣都有好的歸檔機制,儲存在 Gemini 的「My Stuff(我的內容)」區域中,與你的圖片、文件並列,Google 的設計應該是能建立好使用者的AI 資產庫。
核心模型 Lyria,雖然介面尚未完全解鎖,但業界普遍推測這將由 Google DeepMind 開發的 Lyria 模型來提供核心服務。Lyria 先前已在 YouTube Shorts 的 Dream Track 功能中展示過其人聲複製與高品質器樂的能力,其特點在於對旋律結構的理解力以及與 YouTube 生態系的版權整合。
再來是新功能是否能從 Pixel 下放到全 Android 也是業界期待的部分。在過去, Google 的音樂生成嘗試(如 Pixel 8/9 的錄音室功能)多侷限於自家硬體。這次如果能順利整合進 Gemini App,代表 Google 打算將此功能下放給所有 Android 使用者,這將是 AI 音樂生成邁向普及化的關鍵轉折點。
市場將呈現 Suno、Udio、開源音樂模型與 Google 的開花結果嗎?
要理解 Google 此舉的戰略意義,可以看看目前的 AI 音樂市場,在進入 2026 年後,這塊市場已從玩具階段走向更專業化競爭,簡單地分類的話,主要分為兩大派系,
Suno 透過病毒式傳播, 可說是目前市場流量的霸主,憑藉 v5 模型強大的人聲處理與歌詞理解能力,它能快速生成結構完整的 3-4 分鐘歌曲。Suno 的優勢在於易用性與病毒傳播潛力,是目前社群媒體(如 TikTok/Reels)創作者的主要選擇之一。
Udio 則是音樂人的專業工具, 走高保真(High-Fidelity)路線。它的音質更為清脆,立體聲分離度更好,且提供更細緻的修飾功能(Inpainting)。對於追求音質與編曲細節的專業音樂人或製作人來說,Udio 是目前的重點選擇之一。
HeartMuLa 是前陣子才發表的開源 AI 音樂模型,它採用 Apache 2.0 授權強勢來襲,支援多國語言,還具備不錯的段落控制與低顯示記憶體設備的解決方案,有很多人形容是開源版本的 Suno。
Google Gemini 以生態系整合者的身分享有滿的優勢, Google 的進場策略顯然不是要在單一功能上與上述平台硬碰硬,而是打生態系的戰略。用戶可能不但不需要額外下載 App 或註冊新帳號,而是當用戶在寫 YouTube 腳本、製作 Google Photos 回憶影片,或是在 Android 手機上剪輯時,Gemini 都能直接生成配樂並無縫匯入。這就是 Google 最擅長的整合性服務,以高便利性來綁定用戶習慣和生態系,相關的 SDK 、API 一定也是準備好後給產業使用,無形中可望擴大他們在這個領域的影響力。
它的另一個優勢是版權護城河,不同於新創公司如 Suno 和 Udio 正面臨 RIAA 的版權訴訟,Google 擁有 YouTube 的 Content ID 龐大資料庫與合作夥伴關係。Lyria 模型內建的 SynthID 浮水印技術,以及與藝術家合作的授權模式,讓 Google 在企業應用與版權安全性上擁有絕對優勢。
AI 音樂的下一步趨勢會是什麼呢?
參考 2025 年底至 2026 年初的市場動態,CyberQ 觀察到幾個關鍵趨勢,從文字生歌到多模態細部操控作品方面,使用者將不再滿足於輸入文字提示(Prompt)。未來的趨勢是「哼唱成曲」(Audio-to-Audio)以及「影片配樂」(Video-to-Audio)。Gemini 此次更新若能結合手機麥克風進行哼唱輸入,將會大幅降低創作門檻。
可控性(Controllability)是另一個關鍵,早期的 AI 音樂有點像是讓用戶瘋狂抽卡,你抽很久的卡才會拿到滿意的作品,現在使用者需要的是「修改特定段落」的能力。Udio 已經證明了這點,Google 若想勝出,必須提供類似的編輯深度,而不僅僅是生成一段指定風格的隨機旋律。
版權清洗與商業化,隨著歐美對 AI 版權法規的重視和實務案例增加,企業用戶將會逃離有法律風險的平台。Google 的保守策略雖然動作慢,卻反而在 2026 年成為其最大的資產,為商業廣告與影視創作者提供了一個安全港。
Google 與 AI 開源音樂模型有機會獲得更好的能見度
CyberQ 認為,Google 擁有世界級的 DeepMind 團隊與 YouTube 資料,卻在 AI 音樂產品化上落後了整整兩年。這次 Gemini 的更新,顯示 Google 終於打算將技術轉化為用戶可觸及的產品。
對於一般用戶來說,這是個好消息,未來你的 Android 手機本身就是一個隨身樂團。但對於 Suno 和 Udio 來說,真正的威脅並非 Google 的技術比較強,而是 Google 能讓數十億人不用離開現在的 App 就能完成音樂創作,確實是一個滿值得關注的點。而開源的音樂模型 HeartMuLa ,是否能夠帶動其他新創或產業界應用來掌握自己的 AI 音樂市場布局呢 ? 這則是另一個可以關注的地方。









