[西洋] 8大AI西洋棋大亂鬥:OpenAI o3 橫掃冠軍,Grok 4 四戰皆敗

看板chess (棋類遊戲)作者 (skyhawk)時間4周前 (2025/08/16 01:09), 4周前編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
8大AI西洋棋大亂鬥:OpenAI o3 橫掃冠軍,Grok 4 四戰皆敗成為話題焦點 T邦克 https://tinyurl.com/27x28dtc https://tinyurl.com/2b3akrlb 這場比賽由 Google 所屬的 Kaggle Game Arena 主辦,平台設於 Chess.com,邀請多家 語言模型參賽。比賽規定所有參賽模型不得接受任何針對西洋棋的訓練,只能透過自學、 蒐集網路資料進行對弈能力推理,是一場檢驗泛用 AI 智能「從零學會策略」的測驗場。 參賽陣容:八大模型角逐,Grok 一度看漲 本屆賽事集結了 OpenAI o3、o4 mini、Google Gemini 2.5 Pro 與 Flash、Anthropic Claude Opus、Moonshot DeepSeek R1、Kimi K2 以及 xAI 的 Grok 4 等八大主流語言模 型。 Grok 4 在淘汰賽一路過關斬將,擊敗 Google 的 Gemini 雙版本晉級決賽。馬斯克也曾 在 X(原 Twitter)上強調:「我們幾乎沒在西洋棋上下功夫就進決賽,已經很驚人。」 然而決賽中,OpenAI o3 表現更為壓倒性,不僅 4:0 完封 Grok,前三場也皆以同比分擊 敗對手,包括自家 o4 mini。 https://tinyurl.com/22nhwa9a 棋王與大師怎麼看?「會吃子但不會贏棋」 世界排名第一的西洋棋手芒努斯.卡爾森(Magnus Carlsen)在評論中指出,這些 AI 模 型大多只有 800~1200 ELO 的實力,「Grok 就像只會理論、不會實戰的新手。」他形容 :「他們像會買菜卻不會煮飯的廚師。」 國際西洋棋大師中村光(Hikaru Nakamura)則指出:「Grok 在對局中犯了很多錯,而 o3 的策略更穩定。」這也是最終比分如此懸殊的原因。 https://tinyurl.com/22d4yx2h 這場比的不是下棋,而是 AI 的學習力 這次比賽不同於 AlphaGo、Deep Blue 那類「針對某棋種專訓的模型」,而是測試語言模 型能否透過自學掌握陌生遊戲規則,進而運用推理與邏輯進行策略性遊戲操作。 這場比賽展示的,不只是 AI 是否能「會玩西洋棋」,而是「能否學會西洋棋」,從語言 任務進階到邏輯策略任務,呈現泛用人工智慧(AGI)重要發展指標。 泛用 AI 的關鍵實驗場 語言模型若要真正走向通用智能,必須具備跨知識、跨技能的即學即用能力。這場由 Kaggle Game Arena 主辦、在 Chess.com 平台上進行的賽事,正是一次對 AGI 潛力的 測試。 雖然目前表現還在入門程度,但 OpenAI o3 展現出高穩定度與策略整合能力,為未來語 言模型走入遊戲、推理、模擬等高層次任務奠定了基礎。 ---------------------------------------------------------------- LLM西洋棋賽落幕:OpenAI o3 奪冠,xAI Grok 4 沒贏一盤被完封 https://tinyurl.com/24zgv8yp Kaggle AI 國際西洋棋賽落幕,未經專門訓練的 o3 以 4-0 完封擊敗 Grok 4,顯現推理 能力極強。 近日 Google 旗下 Kaggle 舉辦的「人工智慧西洋棋表演賽」8 月 14 日公布結果, OpenAI 通用大型語言模型 o3 以 4:0 橫掃 xAI 的 Grok 4,奪下冠軍,並成為首個 在未經專門訓練下完封對手的 LLM。 賽事共 8 組 AI 參與,為期三天,以淘汰賽決勝。 語言模型比賽看點 根據 OpenTools.ai 報導,o3 在一路晉級過程中連續三場交出 4:0的完封成績,準決賽更 淘汰自家輕量版 o4 mini。 相較之下,Grok 4 常在早盤一度領先,卻於賽事最末多次「丟后」(犧牲行動力最強的 Queen)。西洋棋特級大師 Hikaru Nakamura 評價 o3 「錯誤極少」,並指 Grok 4 常 出現戰術自爆。 前世界冠軍 Magnus Carlsen 形容 Grok 的棋風: 像在看小孩下棋。 他估算 Grok 的 Elo 約 800,o3 約 1200,遠低於頂尖人類或專精型棋類 AI。 ----------------------------------------------------- Elo:一種專業分制度(英語:Elo rating system)是指由匈牙利裔美國物理學家Arpad Elo創建的一個衡量各類對弈活動水準的評價方法,是當今對弈水準評估公認的權威標準 ,且被廣泛用於西洋棋、圍棋、足球、籃球等運動。西洋棋 Elo 最高分數由 Magnus Carlsen 創下 2882 分。 ------------------------------------------------------- 通用型 AI 與專精型 AI 角力 Stockfish 這類專精型系統靠深度搜尋與領域評分,長期坐擁約 3644 Elo。通用型 LLM 則透過大規模跨領域語料學習,下棋僅是推理能力的延伸。雖然 o3 能擊敗 Grok 4,但 今年稍早仍不敵 Stockfish,顯示通用模型在棋藝遊戲推理的穩定性與深度計算上仍有差 距。 日 Google 旗下 Kaggle 舉辦的「人工智慧西洋棋表演賽」8 月 14 日公布結果, OpenAI 通用大型語言模型 o3 以 4 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.14.187 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/chess/M.1755277772.A.140.html ※ 編輯: skyhawkptt (1.161.14.187 臺灣), 08/16/2025 01:19:11
文章代碼(AID): #1edsdC50 (chess)
文章代碼(AID): #1edsdC50 (chess)