[西洋] 8大AI西洋棋大亂鬥：OpenAI o3 橫掃冠軍，Grok 4 四戰皆敗

看板chess (棋類遊戲)作者skyhawkptt (skyhawk)時間10月前 (2025/08/16 01:09)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

8大AI西洋棋大亂鬥：OpenAI o3 橫掃冠軍，Grok 4 四戰皆敗成為話題焦點 T邦克 https://tinyurl.com/27x28dtc https://tinyurl.com/2b3akrlb 這場比賽由 Google 所屬的 Kaggle Game Arena 主辦，平台設於 Chess.com，邀請多家語言模型參賽。比賽規定所有參賽模型不得接受任何針對西洋棋的訓練，只能透過自學、蒐集網路資料進行對弈能力推理，是一場檢驗泛用 AI 智能「從零學會策略」的測驗場。參賽陣容：八大模型角逐，Grok 一度看漲本屆賽事集結了 OpenAI o3、o4 mini、Google Gemini 2.5 Pro 與 Flash、Anthropic Claude Opus、Moonshot DeepSeek R1、Kimi K2 以及 xAI 的 Grok 4 等八大主流語言模型。 Grok 4 在淘汰賽一路過關斬將，擊敗 Google 的 Gemini 雙版本晉級決賽。馬斯克也曾在 X（原 Twitter）上強調：「我們幾乎沒在西洋棋上下功夫就進決賽，已經很驚人。」然而決賽中，OpenAI o3 表現更為壓倒性，不僅 4:0 完封 Grok，前三場也皆以同比分擊敗對手，包括自家 o4 mini。 https://tinyurl.com/22nhwa9a 棋王與大師怎麼看？「會吃子但不會贏棋」世界排名第一的西洋棋手芒努斯．卡爾森（Magnus Carlsen）在評論中指出，這些 AI 模型大多只有 800~1200 ELO 的實力，「Grok 就像只會理論、不會實戰的新手。」他形容：「他們像會買菜卻不會煮飯的廚師。」國際西洋棋大師中村光（Hikaru Nakamura）則指出：「Grok 在對局中犯了很多錯，而 o3 的策略更穩定。」這也是最終比分如此懸殊的原因。 https://tinyurl.com/22d4yx2h 這場比的不是下棋，而是 AI 的學習力這次比賽不同於 AlphaGo、Deep Blue 那類「針對某棋種專訓的模型」，而是測試語言模型能否透過自學掌握陌生遊戲規則，進而運用推理與邏輯進行策略性遊戲操作。這場比賽展示的，不只是 AI 是否能「會玩西洋棋」，而是「能否學會西洋棋」，從語言任務進階到邏輯策略任務，呈現泛用人工智慧（AGI）重要發展指標。泛用 AI 的關鍵實驗場語言模型若要真正走向通用智能，必須具備跨知識、跨技能的即學即用能力。這場由 Kaggle Game Arena 主辦、在 Chess.com 平台上進行的賽事，正是一次對 AGI 潛力的測試。雖然目前表現還在入門程度，但 OpenAI o3 展現出高穩定度與策略整合能力，為未來語言模型走入遊戲、推理、模擬等高層次任務奠定了基礎。 ---------------------------------------------------------------- LLM西洋棋賽落幕：OpenAI o3 奪冠，xAI Grok 4 沒贏一盤被完封 https://tinyurl.com/24zgv8yp Kaggle AI 國際西洋棋賽落幕，未經專門訓練的 o3 以 4-0 完封擊敗 Grok 4，顯現推理能力極強。近日 Google 旗下 Kaggle 舉辦的「人工智慧西洋棋表演賽」8 月 14 日公布結果， OpenAI 通用大型語言模型 o3 以 4:0 橫掃 xAI 的 Grok 4，奪下冠軍，並成為首個在未經專門訓練下完封對手的 LLM。賽事共 8 組 AI 參與，為期三天，以淘汰賽決勝。語言模型比賽看點根據 OpenTools.ai 報導，o3 在一路晉級過程中連續三場交出 4:0的完封成績，準決賽更淘汰自家輕量版 o4 mini。相較之下，Grok 4 常在早盤一度領先，卻於賽事最末多次「丟后」（犧牲行動力最強的 Queen）。西洋棋特級大師 Hikaru Nakamura 評價 o3 「錯誤極少」，並指 Grok 4 常出現戰術自爆。前世界冠軍 Magnus Carlsen 形容 Grok 的棋風：像在看小孩下棋。他估算 Grok 的 Elo 約 800，o3 約 1200，遠低於頂尖人類或專精型棋類 AI。 ----------------------------------------------------- Elo：一種專業分制度（英語：Elo rating system）是指由匈牙利裔美國物理學家Arpad Elo創建的一個衡量各類對弈活動水準的評價方法，是當今對弈水準評估公認的權威標準，且被廣泛用於西洋棋、圍棋、足球、籃球等運動。西洋棋 Elo 最高分數由 Magnus Carlsen 創下 2882 分。 ------------------------------------------------------- 通用型 AI 與專精型 AI 角力 Stockfish 這類專精型系統靠深度搜尋與領域評分，長期坐擁約 3644 Elo。通用型 LLM 則透過大規模跨領域語料學習，下棋僅是推理能力的延伸。雖然 o3 能擊敗 Grok 4，但今年稍早仍不敵 Stockfish，顯示通用模型在棋藝遊戲推理的穩定性與深度計算上仍有差距。日 Google 旗下 Kaggle 舉辦的「人工智慧西洋棋表演賽」8 月 14 日公布結果， OpenAI 通用大型語言模型 o3 以 4 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.14.187 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/chess/M.1755277772.A.140.html ※ 編輯: skyhawkptt (1.161.14.187 臺灣), 08/16/2025 01:19:11