CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
聯繫我們
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
沒有結果
觀看所有搜尋結果
CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
  • 新聞
  • AI 人工智慧
  • 資安
  • Docker
  • 進階應用
  • 網通
  • NAS
  • 開箱測試
  • 教學
  • 展覽直擊
首頁 新聞 AI 人工智慧

Google Gemini 3 Flash 導入 Agentic Vision 強化 AI 視覺

Ashley Hsieh by Ashley Hsieh
2026 年 01 月 28 日 12:30
in AI 人工智慧, 新聞
閱讀時間: 3 分鐘
A A
Google Gemini 3 Flash 導入 Agentic Vision 強化 AI 視覺
1.3k
觀看數
分享到臉書分享到 X分享到Line分享到 Threads分享到 Linkedin

Google DeepMind 近日讓旗下的 AI 模型 Gemini 3 Flash 導入了Agentic Vision 強化 AI 視覺功能 ,這次更新是針對開發者對於 AI 代理人的進階需求,讓模型具備主動式的視覺推理能力,能透過撰寫並執行程式碼來與圖片互動,大幅改善過去 AI 模型在處理高解析度影像時,容易忽略細節的問題。

RELATED POSTS

當 AI 遇上國安:監管升級、成本降溫與 AI 團隊管理新時代|每日科技 & AI 簡報|2026年6月17日

算力狂熱降溫?更多企業啟動AI成本控管

AI 點燃資本盛夏|每日科技 & AI 簡報|2026年6月16日

Think-Act-Observe 從靜態瀏覽進化為主動偵測

過去的 AI 模型在處理視覺資訊時,大多採取靜態瀏覽模式,如同瞥一眼圖片便直接回答問題,這導致模型在面對微小文字或複雜圖表時經常出錯。

這次Gemini 3 Flash 引入了全新的「Think-Act-Observe」循環機制,打破了過去看圖即回答的單向路徑,讓 AI 像真人一樣,懂得在看不清楚時主動湊近反覆檢視。

Photo Credit by Introducing Agentic Vision in Gemini 3 Flash

Think 階段時,模型會先分析使用者的問題與原始圖片,擬定出一套具備多步驟形式的解決計畫。

Act 階段則是遇到如建築藍圖細節或晶片序號等需要細看的資訊時,模型會主動生成並執行 Python 程式碼來處理圖片,例如裁切特定區域或旋轉視角,或是直接進行資料運算。

Observe 階段會把處理後的圖片細節或運算結果,被重新加入模型的脈絡中,再進行二次檢視。

Google 藉由這種循環的實作,讓 AI 不再是依賴模糊的視覺印象,而是能針對關鍵區域反覆驗證,直到確認答案無誤後才產出最終回應。

Figure Credit by Introducing Agentic Vision in Gemini 3 Flash

視覺化標記讓推論過程有據可查

除了主動放大檢視之外,更新過的模型還具備視覺註解能力。也就是在執行計算數量或物件辨識的任務時,Gemini 3 Flash 不再僅是給出文字答案,還會直接在影像上繪製邊框或標籤。

例如當使用者要求計算畫面中的物件數量,模型會在每個辨識到的物件上直接標示數字。這種視覺化草稿,強迫模型必須將推論過程與影像精準對應,這個做法能夠有效降低 AI 產生幻覺的風險。

以程式邏輯解決視覺運算難題

CyberQ 以客戶案例實際測試,過去在處理含有大量資料的圖表或財報時,傳統大型語言模型是依照統計學上的機率來預測下一個字,而不是進行真正的邏輯推演。這就像是一個為了讓句子通順而憑感覺回覆,雖然說話流利,但在面對需要精確答案的數學計算或細節辨識時,就容易因為猜錯而產生幻覺。

而Gemini 3 Flash 是透過 Agentic Vision 精準解析圖表中的原始資料,並透過執行 Python 環境進行數學運算或繪製全新圖表。這種將視覺理解與程式邏輯結合的作法,讓 AI 代理人在處理科學資料與金融報表時的可靠度有所提升。

實際執行可以透過 Google AI Studio 和 Vertex AI 進行程式開發時調用 Gemini API 來進行,以下是 Google 給的實作程式碼範例 :

from google import genai
from google.genai import types

client = genai.Client()

image = types.Part.from_uri(
file_uri=”https://goo.gle/instrument-img”,
mime_type=”image/jpeg”,
)

response = client.models.generate_content(
model=”gemini-3-flash-preview”,
contents=[image, “Zoom into the expression pedals and tell me how many pedals are there?”],
config=types.GenerateContentConfig(
tools=[types.Tool(code_execution=types.ToolCodeExecution)]
),
)

print(response.text)

從看見到更能看得懂的進步

CyberQ 認為 Google 這次推出的 Agentic Vision,在技術層面上可說是從直覺式感知轉向驗證式推論。

過去的大型語言模型在處理影像時,往往依賴機率性的預測,就像憑直覺快速掃視一眼,雖然速度快,但面對需要精確計算或辨識微小細節的任務時,就經常產生誤判。Gemini 3 Flash 透過導入程式碼,賦予了 AI 自主調用工具的能力。這就好比給了 AI 一把放大鏡與計算機,讓它在回答問題前,能先經過嚴謹的邏輯驗證。

CyberQ 觀察,對於一般公司應用來說,這項改變也降低了企業撰寫程式碼呼叫 API 來導入 Google 應用到實務上落地的門檻。像是產品的瑕疵檢測、報表數位化,以及醫療影像的初步辨識等場景中,AI 的準確率與可解釋性是重要關鍵。

Agentic Vision 只要是能夠留下視覺化的推論軌跡,讓使用者知道 AI 是如何得出結論,這將有助於建立人類與 AI 代理人之間的信任感。換言之,多模態 AI 的競爭焦點,除了參數量規模外,解決實際問題的能力更重要。Google 此舉增加了一些 AI 代理人能真正落地,未來逐步成為更備生產力的數位勞動部署可能性。

首圖及部分配圖由 Nano Banana AI 生成

Gemini 不只會聊天?Google 準備將 AI 音樂生成植入 Android,挑戰 Suno 與 Udio
Google 搜尋導入 Personal Intelligence 串聯 Gmail 與 Google相簿
Google 研究顯示「講兩次」就能大幅提升 AI 模型準確度
標籤: Agentic VisionAIAI AgentAI 代理AI代理人AI視覺辨識DeepmindGemini 3 FlashGoogleGoogle AI StudioPython程式碼執行多模態AI影像處理技術生成式AI資料分析自動化降低AI幻覺
Share15Tweet10ShareShareShare3
上一篇

Gemini 不只會聊天?Google 準備將 AI 音樂生成植入 Android,挑戰 Suno 與 Udio

下一篇

Amazon 組織重整與 AI 轉型 預計裁員約 1.6 萬人

Ashley Hsieh

Ashley Hsieh

專案管理者與 UI/UX 設計、AI美術設計認證、淨零碳規劃管理師,在上市歐洲外商、生醫、金融、科技產業中淬煉,曾參與過多個跨平台專案,從需求分析、設計、使用者測試到專案交付流程都樂在其中。 私底下,我是一位「喜歡買東西但錢包容易抗議」的人,對科技、設計與藝術有熱情,正在努力平衡質感生活,學習和錢包一起成長的日常小練習者。

相關文章

當 AI 遇上國安:監管升級、成本降溫與 AI 團隊管理新時代|每日科技 & AI 簡報|2026年6月17日
新聞

當 AI 遇上國安:監管升級、成本降溫與 AI 團隊管理新時代|每日科技 & AI 簡報|2026年6月17日

2026 年 6 月 17 日
算力狂熱降溫?更多企業啟動AI成本控管
AI 人工智慧

算力狂熱降溫?更多企業啟動AI成本控管

2026 年 6 月 16 日
AI 點燃資本盛夏|每日科技 & AI 簡報|2026年6月16日
新聞

AI 點燃資本盛夏|每日科技 & AI 簡報|2026年6月16日

2026 年 6 月 16 日
QQ
新聞

G7 峰會三大 AI 新創執行長首度同框,各國主權 AI 議題再起|每日科技 & AI 簡報|2026年6月15日

2026 年 6 月 15 日
全新 AI 模型 Count Anything 如何實現萬物皆可數?
AI 人工智慧

全新 AI 模型 Count Anything 如何實現萬物皆可數?

2026 年 6 月 14 日
AI 監管風暴來襲,SpaceX IPO 改寫資本市場|每日科技 & AI 簡報|2026年6月14日
新聞

AI 監管風暴來襲,SpaceX IPO 改寫資本市場|每日科技 & AI 簡報|2026年6月14日

2026 年 6 月 14 日
下一篇
Amazon 組織重整與 AI 轉型 預計裁員約 1.6 萬人

Amazon 組織重整與 AI 轉型 預計裁員約 1.6 萬人

爆紅 AI 代理人 Clawdbot 更名為 Moltbot 再改名 OpenClaw,QNAP NAS部署 OpenClaw 實作

爆紅 AI 代理人 Clawdbot 更名為 Moltbot 再改名 OpenClaw,QNAP NAS部署 OpenClaw 實作

ComfyUI v0.11.0 發布:全面支援 Zimage Omni 等多種新模型,VRAM 最佳化再突破

ComfyUI v0.11.0 發布:全面支援 Zimage Omni 等多種新模型,VRAM 最佳化再突破

推薦閱讀

當 AI 遇上國安:監管升級、成本降溫與 AI 團隊管理新時代|每日科技 & AI 簡報|2026年6月17日

當 AI 遇上國安:監管升級、成本降溫與 AI 團隊管理新時代|每日科技 & AI 簡報|2026年6月17日

2026 年 6 月 17 日
GitHub 趨勢周報 Vol.19|管理 AI 團隊成顯學

GitHub 趨勢周報 Vol.19|管理 AI 團隊成顯學

2026 年 6 月 16 日
算力狂熱降溫?更多企業啟動AI成本控管

算力狂熱降溫?更多企業啟動AI成本控管

2026 年 6 月 16 日
AI 點燃資本盛夏|每日科技 & AI 簡報|2026年6月16日

AI 點燃資本盛夏|每日科技 & AI 簡報|2026年6月16日

2026 年 6 月 16 日
QQ

G7 峰會三大 AI 新創執行長首度同框,各國主權 AI 議題再起|每日科技 & AI 簡報|2026年6月15日

2026 年 6 月 15 日

近期熱門

  • PowerToys 0.100 登場:微軟重做 Shortcut Guide,Command Palette 更像 Windows 版 Raycast 了

    PowerToys 0.100 登場:微軟重做 Shortcut Guide,Command Palette 更像 Windows 版 Raycast 了

    217 shares
    Share 87 Tweet 54
  • 美政府發布緊急出口管制令,Anthropic 遭強令全球下架 Fable 5 與 Mythos 5 模型

    213 shares
    Share 85 Tweet 53
  • Anthropic 推 Claude Corps 培育AI人才 台灣讀者可善用官方四大免費課程

    131 shares
    Share 52 Tweet 33
  • Claude Fable 5 爭議背後 AI 安全機制不應用黑箱的方式決策

    131 shares
    Share 52 Tweet 33
  • 【Computex 技術觀察】QNAP 雙軌 HA 方案並進:縱向雙控與橫向擴充

    127 shares
    Share 51 Tweet 32
  • 資安研究人員不滿 Fable 5 的防護機制|每日科技 & AI 簡報|2026年6月11日

    126 shares
    Share 50 Tweet 32
  • 全新 AI 模型 Count Anything 如何實現萬物皆可數?

    123 shares
    Share 49 Tweet 31
  • 解密串流技術新篇章:Apple HLS 13 最新標準(從空間媒體、AI 自動標籤到插播廣告深度控制)

    122 shares
    Share 49 Tweet 31
  • 【Computex 技術觀察】解密 QNAP 新世代混合儲存:打造企業防禦與 VM 應用

    114 shares
    Share 46 Tweet 29
  • GitHub 趨勢周報 Vol.19|管理 AI 團隊成顯學

    112 shares
    Share 45 Tweet 28

關於 CyberQ 賽博客

CyberQ 賽博客網站的命名正是 Cyber + Q ,是賽博網路、資訊、共識 / 高可用叢集、量子科技與品質的綜合體。

我們專注於企業級網路與儲存環境建構、NAS 系統整合、資安解決方案與 AI 應用顧問服務。透過以下三大面向的「Q」核心元素,我們為您提供從基礎架構到資料智慧的雙引擎驅動力:

Quorum 與 Quantum-safe

在技術架構上,是基於信任的基礎架構,CyberQ 深入掌握分散式系統中的 Quorum(一致性)、Queue(任務調度) 與 QoS(服務品質),以 Quick(效率) 解決複雜的 IT 與資安問題。同時,我們積極投入 Quantum-safe(後量子密碼學) 等新興資安領域,確保企業基礎設施在未來運算時代具備堅不可摧的長期競爭力。

Query 與 Quotient

CyberQ 是協助企業成長的 AI 引擎,在堅韌的架構之上,我們透過 Query(洞察) 解析大量資料,並以 Quotient(提升企業科技智商) 的顧問服務,將 AI 導入本機端環境與自動化工作流程中,將資料轉化為企業最具價值的數位資產。

Quest與 Quantum Leap

專業媒體與技術顧問是我們的核心雙動能。

作為科技媒體,我們秉持駭客精神持續進行科技 Quest(探索),探索海內外產業動態。

作為顧問團隊,我們結合多年第一線實務經驗,提供量身打造的最佳化解決方案,協助企業完成數位轉型的 Quantum Leap(躍進)。

新聞稿、採訪、授權、內容投訴、行銷合作、投稿刊登:[email protected]
廣告委刊、展覽會議、系統整合、資安顧問、業務提攜:[email protected]

Copyright ©2026 CyberQ.tw All Rights Reserved.

沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
  • AI 人工智慧
    • AI 應用實戰
    • AI 代理
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊

© 2025 CyberQ NAS、資安、資訊科技、AI應用的日常 關於 CyberQ 賽博客 NAS 系統與電腦、手機一起的生活故事 多年的系統整合與資訊安全經驗,協助智慧家居、小型工作室、辦公室與機構,導入更便利、更安全的資訊環境與應用。