AI 生成圖像領域的戰火從未停歇,而最新的戰場就在 LMSYS Chatbot Arena(大型語言模型競技場)。根據 Reddit 論壇 r/singularity 版上的最新爆料,一個代號為 「Hazel-gen」 的神秘圖像生成模型近日悄悄現身競技場,其強大的理解力與獨特的「風格指紋」,讓社群懷疑是否這是 OpenAI 傳聞已久的下一代繪圖引擎 GPT-Image-2。
神秘客「Hazel-gen」現身
LMSYS Arena 一直是各大 AI 實驗室測試未發布模型(Stealth Mode)的絕佳試煉場。過去,我們見證過代號「red_panda」的模型最終揭曉為 Recraft V3,以及 Google 的 Gemini 系列以水果代號(如 nano-banana)匿名公開讓大家進行盲測。
這次的主角「Hazel-gen」在對戰中表現出了驚人的實力。根據 Reddit 用戶 ThunderBeanage 與其他測試者的回應,該模型在處理複雜指令時展現了顯著的進步,特別是在那些傳統模型容易翻車的細節上。
CyberQ 實測顯示為 hazel-gen-4 的出圖效果是真的不錯,有顯示比以往更好的細節。

為什麼社群認定它是 GPT-Image-2?
雖然官方尚未證實,但資深玩家與 AI 研究者們列出了幾大鐵證,認為這就是 OpenAI 的手筆:
典型的「OpenAI 式」拒絕: 當用戶嘗試生成某些邊緣或不安全的圖像時,「Hazel-gen」給出的拒絕理由(例如:「這張圖片可能會對您的心理健康產生負面影響…」)與 ChatGPT/DALL-E 3 的語氣如出一轍。這種高度保守且具備特定語法結構的 AI 安全護欄,是 OpenAI 模型最顯著的特徵之一。
突破性的文字與細節控制: 在測試中,用戶要求生成「一個指針指向 7:24 的指針時鐘」。雖然目前的模型(如 DALL-E 3)常在鐘面數字或指針邏輯上出錯,但「Hazel-gen」生成的時鐘結構相對精準,顯示其對物理世界的邏輯理解有了顯著的品質提升。此外,圖片中的文字生成(如招牌、標籤)也比前代 DALL-E 3 更加清晰可讀。
風格的延續與進化: 許多測試者指出,該模型的成像質感帶有一種「GPT-Image-1(即 DALL-E 3)的高級版」既視感。它保留了 DALL-E 3 那種鮮明的色彩和構圖邏輯,但在光影真實感和細節銳利度上有了明顯提升,擺脫了部分「AI 塑膠感」。
社群反應:驚艷與挑剔並存
Reddit 上的討論呈現了兩極化的興奮。一方面,大家對其能精準還原複雜 Prompt(提示詞)感到驚艷;另一方面,也有用戶如 Ok_Mission7092 指出,該模型似乎仍帶有一種特定的「黃色調(yellow tint)」,這可能是訓練資料或後處理濾鏡的殘留特徵。
更有趣的是,畢竟過去也發生在 Google 的神秘模型「Nano-Banana-Pro」也在榜單上大殺四方的時刻,這種先匿名釋出測試的方式,也是一種在社群的火力展示和宣傳,不過要能抽卡測試到新的模型通常不容易,請多抽卡試試看。
圖像生成仍舊是各家 AI 模型競逐的戰場
CyberQ 觀察,除了程式開發能力、數學能力與影像辨識能力外,AI 產圖模型、AI 影片產生模型持續是各家競爭的重要領域。如果「Hazel-gen」確為 GPT-Image-2,那麼 OpenAI 在圖像生成領域確實有了一些新進展,也很值得期待,畢竟使用者誰不歡迎有更多更好用的工具問世呢 ? 從目前社群反應的盲測表現來看,它似乎改善了 DALL-E 3 的文字亂碼、手部細節等問題,更在語義理解上有進步。

對於創作者而言,這意味著未來的 AI 產圖除了持續「抽卡」碰運氣,也有機會能更精準地執行我們腦中的構圖。我們會持續關注 LMSYS 排行榜的變動,看看是否有新的面孔出現。







