CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
    • AI 人工智慧
  • AI 代理
  • 龍蝦
  • AI 應用實戰
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
聯繫我們
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
    • AI 人工智慧
  • AI 代理
  • 龍蝦
  • AI 應用實戰
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊
沒有結果
觀看所有搜尋結果
CyberQ 賽博客
沒有結果
觀看所有搜尋結果
  • 首頁
  • 新聞
  • AI 代理
  • 龍蝦
  • AI 應用實戰
  • 資安
  • Docker
  • 進階應用
  • 網通
  • NAS
  • 開箱測試
  • 教學
  • 展覽直擊
首頁 新聞 AI 人工智慧

Claude Opus 4.5 登場,低價搶回 Coding 王座,甚至通過了自家工程師面試?

Ashley Hsieh by Ashley Hsieh
2025 年 11 月 25 日 08:30
閱讀時間: 3 分鐘
A A
Claude Opus 4.5 登場,低價搶回 Coding 王座,甚至通過了自家工程師面試?
3.7k
觀看數
分享到臉書分享到 X分享到Line分享到 Threads分享到 Linkedin

如果說 2025 年的 11 月是各家 AI 模型的激烈戰役月,Anthropic 自然不缺席也參戰了。

RELATED POSTS

Linux 核心重大安全漏洞 Copy Fail 及各大廠修補進度

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

在 OpenAI 推出 GPT-5.1-Codex-Max 和 Google 釋出 Gemini 3 Pro 短短幾天後,Anthropic 不甘示弱地亮出了底牌,Claude Opus 4.5,可說是針對開發者社群的重點產品。

這次的新版 ,Claude Opus 4.5 模型除了性能上的顯著提升,最讓社群震驚的其實是它的定價策略,Anthropic 這次不講武德,直接將價格砍到了原本的三分之一,試圖用性價比去搶占高階 AI 模型市場。

不只是強,是聰明得像人,甚至通過自家面試

根據 Anthropic 官方與最新的基準測試資料,Claude Opus 4.5 在多項關鍵指標上都創下了紀錄,尤其是開發者最在意的程式碼能力。

Coding 能力重回 SWE-bench Verified 榜首

在 SWE-bench Verified 這個真實軟體工程問題解決能力測試中,Claude Opus 4.5 拿下了 80.9% 的高分,正式超越了 GPT-5.1-Codex-Max (77.9%) 和 Gemini 3 Pro (76.2%)。換言之,在處理複雜、多步驟的程式碼修復任務時,它目前相關測試中成績最好的。

Claude Opus 4.5 通過了人類面試

這是一個非常有趣的行銷重點,也是該公司對他們 AI 模型自豪的實力展示。根據官方資料,Anthropic 居然讓 Opus 4.5 參加了他們內部招聘「效能工程師」的考題。在 2 小時的時限內,Opus 4.5 的得分高於以往任何一位人類應徵者。雖然這不代表它具備人類的協作能力,但在純技術判斷力上,它已經達到了讓人信服的程度。

具體來說呢,該項考試是一份設計用來評估技術能力和時間壓力下判斷力的考試,限時兩小時內完成。在使用並行測試時間計算的方法下,Opus 4.5 的得分超過了歷史上所有參加過此測試的人類求職者。如果沒有時間限制,該模型在 Claude Code 環境中的表現等同於歷史上表現最佳的人類求職者。

官方針對這項內容的額外說明原文確實如此,This result was using parallel test-time compute, a method that aggregates multiple “tries” from the model and selects from among them. Without a time limit, the model (used within Claude Code) matched the best-ever human candidate.

值得注意的是,Anthropic 強調該測試並未涵蓋協作、溝通等關鍵專業技能,以及多年經驗所培養的直覺判斷能力,這點還是真實人類的強項。

更有彈性的思考模式

官方也對外展示了一個經典案例,當被要求修改一張「不可退改」的經濟艙機票時,Opus 4.5 展現了驚人的「鑽漏洞」能力(Creative Problem Solving)。它沒有死板地拒絕,而是建議:「先符合規定付費升等到商務艙,然後再符合規定更改商務艙的航班」。這種創造性解決問題的能力,正是過去 AI 模型最缺乏的。

價格戰役繼續,高階 AI 模型不再高不可攀

這恐怕是這次更新中最讓開發者關注的消息,過去 Opus 系列雖然強,但價格昂貴(Input $15 / Output $75),讓許多人卻步,轉而使用 Sonnet。但這次 Opus 4.5 的定價極具侵略性:

輸入:$5 / 百萬 tokens

輸出:$25 / 百萬 tokens

這是什麼意思?

它的價格只有前代的 1/3,直接殺進了與 GPT-5.1 和 Gemini 3 Pro 競爭的甜蜜點。配合它引入的 Effort Parameter(努力程度參數),使用者還可以選擇「低、中、高」三種思考強度,進一步控制成本與速度。Anthropic 出這個大絕招降價又加量,明顯是為了從 OpenAI 和 Google 手中搶回企業級用戶。

開發者們怎麼看?

在 Reddit (r/LocalLLaMA, r/ChatGPTCoding) 和 X (Twitter) 上,經過一整晚的發酵,CyberQ 觀察到幾個明顯的討論趨勢:

正面評價居然是解決了陳年老問題,一位 Reddit 用戶分享,他有一個困擾了 5 年的複雜程式碼庫問題,過去用 GPT-4、GPT-5.1 甚至 Sonnet 嘗試修復都失敗,但 Opus 4.5 在 1 小時內就給出了正確的解法。這種「專治疑難雜症」的口碑正在社群中快速擴散。

關於 Vibe 感覺的討論
這是一個很玄但很重要的指標。許多測試者表示,Opus 4.5 的對話風格「更像人」,少了很多 AI 常見的說教感(Sycophancy)或過度熱情的虛假感。有用戶形容:「它更懂得閱讀空氣,不會在你只需要一行指令時給你寫一篇論文。」

與 GPT-5.1 的對比
目前的共識似乎是:GPT-5.1-Codex-Max 在使用終端機(Terminal)和執行腳本上稍佔優勢(畢竟 OpenAI 的生態系整合很強),但在程式碼邏輯推演、架構重構(Refactoring)和除錯上,Opus 4.5 似乎略勝一籌,這與 SWE-bench 的結果相符。

懷疑論者的聲音
當然,也有一派聲音認為,目前的 AI 進步正在趨緩(Plateauing)。有觀點指出,雖然跑分高了,但在日常簡單任務上,使用者可能感覺不出與 Sonnet 4.5 的巨大差異。對於非重度 Coding 使用者來說,這次升級的「體感差異」可能不如帳面資料顯示地那麼大。

AI 開發的新分水嶺

CyberQ 認為 Claude Opus 4.5 的發布可說繼續讓 AI 高階推理模型(Reasoning Models)的價格戰持續,用戶可以精打細算不同任務需要用到的預算,透過 API 去呼叫雲端模型來完成任務,並搭配兼顧本地端模型來分擔成本。

對於台灣的開發者或技術主管來說,如果過去因為成本考量而只在關鍵時刻才捨得切換到 Opus 模型,現在確實可以考慮將其作為主力模型,特別是在涉及複雜系統架構或需要高度安全校準(Alignment)的任務上。

或許我們很多人可以趁著這波價格紅利,趕快去測試手邊那些積塵已久的舊 Bug,也許 Opus 4.5 就是一貼好解藥囉。

首圖由 ComfyUI 搭配本地端 AI 模型生成

你用的 AI 智商到底有多少?揭密 TrackingAI 最新 IQ 排行榜
AI正在悄悄取代職場新鮮人?史丹佛最新研究顯示職場正受到影響
美國 AI 經濟版圖呈現 AI 落差正擴大中,職場階層也深受影響,中低階工作恐出現部分斷層
Google DeepMind 發布 Antigravity 專為開發者打造的 AI 協作平台
Google Gemini 3 震撼登場:不只是更聰明,而是「會思考」與「能行動」的生成式 UI 革命
xAI正式推出 Grok 4.1 稱霸 LMArena 排行榜並大幅降低幻覺率
OpenAI 正式推出 GPT-5.1 強化推理能力與人性化互動體驗
主要 AI 模型 API 價格比較 (2025年11月版)
標籤: AnthropicClaudeClaude AIClaude Opus
Share44Tweet28ShareShareShare8
上一篇

主要 AI 模型 API 價格比較 (2025年11月版)

下一篇

你用的 AI 智商到底有多少?揭密 TrackingAI 最新 IQ 排行榜

Ashley Hsieh

Ashley Hsieh

專案管理者與 UI/UX 設計、AI美術設計認證、淨零碳規劃管理師,在上市歐洲外商、生醫、金融、科技產業中淬煉,曾參與過多個跨平台專案,從需求分析、設計、使用者測試到專案交付流程都樂在其中。 私底下,我是一位「喜歡買東西但錢包容易抗議」的人,對科技、設計與藝術有熱情,正在努力平衡質感生活,學習和錢包一起成長的日常小練習者。

相關文章

Linux 核心重大安全漏洞 Copy Fail 及各大廠修補進度
新聞

Linux 核心重大安全漏洞 Copy Fail 及各大廠修補進度

2026 年 5 月 2 日
Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統
AI 人工智慧

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

2026 年 5 月 1 日
史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡
AI 人工智慧

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

2026 年 4 月 30 日
把 AI 關進 1930 年的圖書館,Talkie 呈現有年代感的大語言模型
AI 人工智慧

把 AI 關進 1930 年的圖書館,Talkie 呈現有年代感的大語言模型

2026 年 4 月 29 日
AI 審判開打:馬斯克指控 OpenAI 背叛非營利初心,Altman 陣營反擊「競爭者抹黑」
AI 人工智慧

AI 審判開打:馬斯克指控 OpenAI 背叛非營利初心,Altman 陣營反擊「競爭者抹黑」

2026 年 4 月 28 日
微軟與 OpenAI 終止獨家綁定與營收分成,AI 雲端重新洗牌
AI 人工智慧

微軟與 OpenAI 終止獨家綁定與營收分成,AI 雲端重新洗牌

2026 年 4 月 28 日
下一篇
你用的 AI 智商到底有多少?揭密 TrackingAI 最新 IQ 排行榜

你用的 AI 智商到底有多少?揭密 TrackingAI 最新 IQ 排行榜

Google 計畫結盟 Meta 與 AMD 強化自研 AI 晶片生態系

Google 計畫結盟 Meta 與 AMD 強化自研 AI 晶片生態系

推薦閱讀

Linux 核心重大安全漏洞 Copy Fail 及各大廠修補進度

Linux 核心重大安全漏洞 Copy Fail 及各大廠修補進度

2026 年 5 月 2 日
Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

2026 年 5 月 1 日
史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

2026 年 4 月 30 日
把 AI 關進 1930 年的圖書館,Talkie 呈現有年代感的大語言模型

把 AI 關進 1930 年的圖書館,Talkie 呈現有年代感的大語言模型

2026 年 4 月 29 日
AI 審判開打:馬斯克指控 OpenAI 背叛非營利初心,Altman 陣營反擊「競爭者抹黑」

AI 審判開打:馬斯克指控 OpenAI 背叛非營利初心,Altman 陣營反擊「競爭者抹黑」

2026 年 4 月 28 日

近期熱門

  • 史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

    史丹佛 2026 年 AI 指數報告解析科技突破與安全風險的平衡

    632 shares
    Share 253 Tweet 158
  • 把 AI 關進 1930 年的圖書館,Talkie 呈現有年代感的大語言模型

    522 shares
    Share 209 Tweet 131
  • GPT-5.4 醫療評測表現超越人類醫師,近期也推出 ChatGPT for Clinicians

    483 shares
    Share 193 Tweet 121
  • 告別數位囤積與 RAG 碎片化!實作 Obsidian LLM-Wiki 打造全自動進化的個人知識庫

    223 shares
    Share 89 Tweet 56
  • Mistral 發表 Medium 3.5 旗艦模型並推出 Vibe 遠端代理系統

    139 shares
    Share 56 Tweet 35
  • 微軟與 OpenAI 終止獨家綁定與營收分成,AI 雲端重新洗牌

    135 shares
    Share 54 Tweet 34
  • AI 審判開打:馬斯克指控 OpenAI 背叛非營利初心,Altman 陣營反擊「競爭者抹黑」

    128 shares
    Share 51 Tweet 32
  • GitHub 趨勢週報 Vol.12:AI 代理與開發架構工具的新進展

    98 shares
    Share 39 Tweet 25
  • NVIDIA 釋出佛心大禮包?免費用 1 年頂級 AI 模型 API 解析與教學

    514 shares
    Share 206 Tweet 129
  • 不想用 OpenClaw 的開發者轉向 Hermes Agent

    254 shares
    Share 102 Tweet 64

關於 CyberQ 賽博客

CyberQ 賽博客網站的命名正是 Cyber + Q ,是賽博網路、資訊、共識 / 高可用叢集、量子科技與品質的綜合體。

我們專注於企業級網路與儲存環境建構、NAS 系統整合、資安解決方案與 AI 應用顧問服務。透過以下三大面向的「Q」核心元素,我們為您提供從基礎架構到資料智慧的雙引擎驅動力:

Quorum 與 Quantum-safe

在技術架構上,是基於信任的基礎架構,CyberQ 深入掌握分散式系統中的 Quorum(一致性)、Queue(任務調度) 與 QoS(服務品質),以 Quick(效率) 解決複雜的 IT 與資安問題。同時,我們積極投入 Quantum-safe(後量子密碼學) 等新興資安領域,確保企業基礎設施在未來運算時代具備堅不可摧的長期競爭力。

Query 與 Quotient

CyberQ 是協助企業成長的 AI 引擎,在堅韌的架構之上,我們透過 Query(洞察) 解析大量資料,並以 Quotient(提升企業科技智商) 的顧問服務,將 AI 導入本機端環境與自動化工作流程中,將資料轉化為企業最具價值的數位資產。

Quest與 Quantum Leap

專業媒體與技術顧問是我們的核心雙動能。

作為科技媒體,我們秉持駭客精神持續進行科技 Quest(探索),探索海內外產業動態。

作為顧問團隊,我們結合多年第一線實務經驗,提供量身打造的最佳化解決方案,協助企業完成數位轉型的 Quantum Leap(躍進)。

新聞稿、採訪、授權、內容投訴、行銷合作、投稿刊登:[email protected]
廣告委刊、展覽會議、系統整合、資安顧問、業務提攜:[email protected]

Copyright ©2026 CyberQ.tw All Rights Reserved.

沒有結果
觀看所有搜尋結果
  • 首頁
    • 關於我們
    • 隱私權政策
  • 新聞
    • AI 人工智慧
  • AI 代理
  • 龍蝦
  • AI 應用實戰
  • 資安
    • ISO 合規
  • Docker
    • 虛擬化
  • 進階應用
    • DevOps
    • 程式開發
    • 企業解決方案
  • 網通
    • 100GbE
    • 10GbE
  • NAS
  • 開箱測試
    • 選購指南
  • 教學
    • DR.Q 快問快答
  • 展覽直擊

© 2025 CyberQ NAS、資安、資訊科技、AI應用的日常 關於 CyberQ 賽博客 NAS 系統與電腦、手機一起的生活故事 多年的系統整合與資訊安全經驗,協助智慧家居、小型工作室、辦公室與機構,導入更便利、更安全的資訊環境與應用。