在人工智慧發展的浪潮中,我們過去熟知的熱門職缺多半是 AI 詠唱師(Prompt Engineer) 或多模態模型設計師。然而根據 Semafor 的最新報導,近期矽谷科技大廠與 AI 新創公司開始將目光轉向一個意想不到的領域,那就是神經科學。這暗示著 AI 架構正在經歷一場從「暴力運算」轉向「仿生效率」的重大變革。
從學術界走向科技戰場
過去神經科學家多半任職於大學研究中心或醫療機構,但近期包含 Meta 在內的科技大廠,開始積極延攬這類人才。報導指出,原本任職於紐約大學神經科學中心的學者 Aldo Battista,便在 2025 年 9 月轉戰 Meta 擔任研究科學家。他在受訪時表示,雖然工作內容與學術研究相似,但在科技公司能獲得即時的回饋,且研究成果能直接應用於社群媒體的演算法中。
這股招聘熱潮並非偶然,隨著 AI 模型規模不斷擴大,兩大關鍵挑戰逐漸浮現,分別是能源效率與可解釋性。而這正是神經科學家能發揮所長之處。
工程界的仿生學 稀疏模型與人腦機制
要理解為何科技大廠需要研究人腦,我們必須先檢視目前 AI 發展的主流技術路徑:稀疏模型(Sparse Models)。
過去幾年主流的「稠密模型」(Dense Models),運作起來就像是一個全力全開的工廠。無論使用者問 AI 一個簡單的生活問題或是複雜的物理難題,模型中數千億個參數都會全部一起參與運算。這種作法雖然強大,但資料處理成本高昂且極度耗電。
為了解決這個問題,目前科技大廠(如 Google、Mistral 以及 OpenAI)開始廣泛採用混合專家模型(Mixture of Experts, MoE)。這種架構會將大模型拆解成許多小型的「專家」,透過路由機制判斷問題該交給哪幾位專家處理,其餘參數則保持休眠。
| 特性比較 | 傳統稠密模型 (Dense Models) | 稀疏模型 (Sparse / MoE Models) |
|---|---|---|
| 運作邏輯 | 全參數參與每一次運算 (暴力運算) | 僅啟動部分參數 (仿生精準啟動) |
| 代表案例 | Llama 3 70B, Qwen 72B | Mixtral 8x7B, GPT-4, Grok-1 |
| 推論速度 (Latency) | 較慢 (需計算所有權重) | 較快 (僅計算被啟動的專家權重) |
| VRAM 需求 (顯存容量) | 與參數量成正比 (如 70B 需約 140GB) | 極高 (需載入所有專家,如 47B 需約 100GB,但運算量僅 13B) |
| 硬體成本結構 | 運算密集型 (吃重 GPU 核心算力) | 記憶體頻寬密集型 (吃重 VRAM 大小與頻寬) |
| 適用場景 | 通用任務、硬體預算受限的中小企業 | 高併發客服、RAG 檢索、追求極致回應速度 |
這種「稀疏性」正是工程界試圖模仿人腦運作的一種實踐。神經科學研究顯示,人類大腦具有高度的稀疏特性,當我們在運算數學時,負責情感或語言的腦區可能處於低耗能狀態。大腦只會精準啟動當下任務所需的神經元,這也是為何人腦僅需極低的能量就能維持高效運作。
為何已經有稀疏模型還需要神經科學家
既然工程師已經開發出 MoE 這類稀疏模型,為何還需要神經科學家介入?關鍵在於目前的技術仍屬於「靜態的稀疏」。
現有的 MoE 模型雖然學會了分工,但這種機制相較於大腦的靈活度仍顯得生硬。大腦的稀疏性是動態且可塑的,也就是神經連結會隨著學習強度增強或斷開,這在神經科學中被稱為赫布學習法則(Hebbian learning)。
科技大廠招聘神經科學家,正是希望能夠突破現有架構的限制。新創公司 Pathway 正在開發一種嘗試模仿大腦運作的新型 Transformer 模型,讓部分神經連結能隨著互動而不斷更新,讓 AI 具備持續學習的能力,而非像傳統模型訓練完即固定。透過理解大腦如何自然形成稀疏連結、如何在不遺忘舊知識的前提下動態調整神經元,未來的 AI 有機會從工程師設定的「被動稀疏」規則,進化為模型自我演化的「主動稀疏」。
產業觀點與未來展望
對於台灣的科技產業而言,這股趨勢值得密切關注。當硬體 AI 算力的堆疊遭遇物理極限與能源成本的挑戰時,回歸生物本質的演算法創新,或許是另一種新的方向。我們未必能完全複製大腦,但透過神經科學家的協助,我們能更深入理解大腦如何高效處理資料,進而設計出更聰明、更環保且具備可解釋性的 AI 系統。
這場跨領域的整合顯示,未來的 AI 競爭將不再僅是晶片數量的軍備競賽,更是對智慧本質理解深度的較量。
本文題圖 Google Gemini AI 生成







