全新 AI 模型 Count Anything 如何實現萬物皆可數？

在電腦視覺領域中，讓人工智慧精確計算影像中的物件數量一直是一項看似簡單、實則極具挑戰性的任務。無論是遙測影像中的車輛、顯微鏡下的細胞，還是農田裡的作物，傳統模型往往受限於特定場景與特定類別。近日，一項名為 Count Anything 的全新開源專案引起了科技界與人工智慧社群的廣泛關注。該專案基於最新發表的學術論文，提出了一種由文字引導的跨領域通用計數模型，真正實現了所見皆可數的技術突破。

DeepSeek V4 Flash 正式版成績不俗且成本僅 Gemini 的 1/19，開放權重挑戰閉源 AI

FCC 擴大設備禁令海外先進機器人與電源逆變器入列

AI Agent 失控連環爆：OpenAI 與 Anthropic 模型雙雙突破隔離｜Thinking Machines 縮小模型受矚目｜產業精選 08.01

傳統物件計數的技術困境與核心問題

CyberQ 觀察，傳統的物件計數演算法主要依賴基於密度圖的方法。這種架構雖然在特定高密度場景（例如演講廣場上的擁擠人群）中表現良好，但當面對不同領域、不同尺度以及不同分佈密度的影像時，其泛化能力便會遭遇嚴重瓶頸。這正是視覺領域長期存在的技術問題。當模型從通用日常場景切換到醫學組織病理學或農業監測時，由於目標物體邊界模糊且尺度落差劇烈，現有的開放世界計數方法往往會完全失效。此外，過去的架構通常需要針對個別場景重新進行大量的模型微調與架構調整，無法做到真正的通用化。

CLOC 橫跨六大視覺領域的巨量基準測試資料集

為了克服跨領域資料缺乏的挑戰，研究團隊首先建構了一個名為 CLOC（Cross-domain Large-scale Object Counting）的跨領域大規模物件計數資料集。這個資料集將多元的公開資料來源整合為一個統一的基準平台。CLOC 完整涵蓋了六大關鍵視覺領域，包括通用場景、遙測影像、組織病理學、細胞顯微鏡、農業監測以及微生物學。整個資料集包含大約 22 萬張影像、619 個不同的物件類別，以及高達 1500 萬個具體的物件實例。透過建構如此龐大且具備多樣性的資料庫，研究團隊為後續通用模型的訓練奠定了堅實的基礎。

Count Anything 的創新架構為雙粒度計數與融合機制

這項專案的核心突破在於其創新提出的 Count Anything 萬物計數模型。研究團隊放棄了佔據主流的密度圖架構，轉而採用離散的實例點預測，並設計出獨特的雙粒度實例列舉機制。

模型內部整合了兩套相輔相成的技術核心。首先是區域級稀疏計數器，它主要負責為體積較大且分佈稀疏的目標物件提供物件級的定錨標記。其次是像素級密集計數器，專門透過密集的點預測技術來處理體積微小、極度擁擠且邊界極其模糊的目標。

為了讓模型能夠從多種不同類型的異質標註中進行有效學習，這個專案導入引入了以點為中心的監督策略。模型透過一個完全不需要額外參數的互補計數融合技術，將兩個計數器的優勢結合，在執行高精確度計數的同時，也能提供具備可解釋性的空間定位。

文字引導與開放世界的新範式

Count Anything 的另一大優勢在於其靈活的互動與控制能力。使用者只需輸入一張影像以及一段自然語言查詢（例如計算畫面中的白血球數量或計算停車場中的紅色車輛），模型就能夠自動理解文字意圖並精確標註出所有目標位置。

這種文字引導的架構讓物件計數從傳統的類別受限，走向了開放世界的全新範式，大幅降低了各產業在實際部署 AI 工具時的技術門檻。

開源生態與未來展望

目前，Count Anything 的完整程式碼已在 GitHub 上正式開源，吸引了大量開發者與資安、資訊工程人員的關注。CyberQ 認為，這種高泛化能力的通用模型將為自動化資產盤點、醫學影像輔助分析以及智慧農業帶來革命性的變革。其具備的離散點定位能力，也為未來的資安合規審查與自動化影像稽核提供了極佳的底層技術支援。隨著開源社群的不斷投入，我們期待看到更多基於此架構的最佳化延伸應用落地。

學術論文（arXiv 2605.30846）：https://arxiv.org/abs/2605.30846

GitHub 原始碼專案：https://github.com/Mengqi-Lei/count-anything

邁向自動化桌面作業！OpenAI Codex Computer Use 正式支援 Windows

美軍斥資兩百億美元攜手 Anduril 推動 AI 國防現代化

AI 代理人正式接管桌面：Anthropic Claude Computer Use 的強大與資安隱憂

標籤: Count Anything 計數模型

全新 AI 模型 Count Anything 如何實現萬物皆可數？

DeepSeek V4 Flash 正式版成績不俗且成本僅 Gemini 的 1/19，開放權重挑戰閉源 AI

FCC 擴大設備禁令海外先進機器人與電源逆變器入列

AI Agent 失控連環爆：OpenAI 與 Anthropic 模型雙雙突破隔離｜Thinking Machines 縮小模型受矚目｜產業精選 08.01

AI 監管風暴來襲，SpaceX IPO 改寫資本市場｜產業精選 06.14

打造專屬智慧家庭樞紐：在 QNAP NAS 實作 Home Assistant、HACS 與智慧家電連結

Chen Glenn

相關文章

DeepSeek V4 Flash 正式版成績不俗且成本僅 Gemini 的 1/19，開放權重挑戰閉源 AI

FCC 擴大設備禁令海外先進機器人與電源逆變器入列

AI Agent 失控連環爆：OpenAI 與 Anthropic 模型雙雙突破隔離｜Thinking Machines 縮小模型受矚目｜產業精選 08.01

Anthropic安全評估出包三款Claude模型誤駭三家組織系統

Apple 庫存翻倍備戰供應鏈短缺｜GPT-5.6 Luna 降價 80%｜Reddit財報顯AI衝擊｜產業精選 07.31

Zuckerberg 預測個人 AI 代理五年內普及｜微軟 AI 投資兩樣情｜產業精選 07.30

打造專屬智慧家庭樞紐：在 QNAP NAS 實作 Home Assistant、HACS 與智慧家電連結

G7 峰會三大 AI 新創執行長首度同框，各國主權 AI 議題再起｜產業精選 06.15

AI 點燃資本盛夏｜產業精選 06.16

推薦閱讀

DeepSeek V4 Flash 正式版成績不俗且成本僅 Gemini 的 1/19，開放權重挑戰閉源 AI

FCC 擴大設備禁令海外先進機器人與電源逆變器入列

AI Agent 失控連環爆：OpenAI 與 Anthropic 模型雙雙突破隔離｜Thinking Machines 縮小模型受矚目｜產業精選 08.01

Anthropic安全評估出包三款Claude模型誤駭三家組織系統

QNAP AI NAS Edge AI 方案與自建 DGX Spark 地端 LLM 架構比較

近期熱門

告別隨意寫程式！Matt Pocock 推出 grill-me 技能，讓 AI 成為最嚴苛的架構審查官

GitHub 趨勢周報 Vol.25：去中心化通訊與AI代理工具

微軟發布 Windows 11 KB5101684 選擇性更新：檔案總管與搜尋速度提升，容量與穩定度全面解析

梁文鋒近 4 小時閉門會議紀要外洩：解密 DeepSeek 的 AGI 藍圖與融資暫停風波

Claude 對話意外被 Google 索引外流、微軟推 AI 資安平台｜產業精選 07.28

實戰指南：HDP Recovery Media Creator 打造 ISO 還原媒體，NAS 虛擬機沙盒完成 0 錯誤演練

實戰指南：Tailscale + QNAP 打造免網管跨國協作圈與檔案分享

Anthropic 砍掉 Claude Code 八成系統提示詞：Claude 5 世代的 Context Engineering 新規則

FCC 擴大設備禁令海外先進機器人與電源逆變器入列

Zuckerberg 預測個人 AI 代理五年內普及｜微軟 AI 投資兩樣情｜產業精選 07.30

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap

全新 AI 模型 Count Anything 如何實現萬物皆可數？

RELATED POSTS

傳統物件計數的技術困境與核心問題

CLOC 橫跨六大視覺領域的巨量基準測試資料集

Count Anything 的創新架構為雙粒度計數與融合機制

文字引導與開放世界的新範式

開源生態與未來展望

AI 監管風暴來襲，SpaceX IPO 改寫資本市場｜產業精選 06.14

打造專屬智慧家庭樞紐：在 QNAP NAS 實作 Home Assistant、HACS 與智慧家電連結

相關文章

推薦閱讀

近期熱門

關於 CyberQ 賽博客

Quorum 與 Quantum-safe

Query 與 Quotient

Quest與 Quantum Leap