[新聞] AI專家：攻克圍棋原理已找到 GPT學圍棋令人期待

看板GO (圍棋)作者joanzkow (星浪)時間2年前 (2024/05/14 22:21)推噓2(2推 0噓 2→)

留言4則, 2人參與討論串1/1

AI專家：攻克圍棋原理已找到 GPT學圍棋令人期待　　國家圍棋隊官方合作夥伴少年縱橫特約報導。　　2017年柯潔淚灑烏鎮後，人類圍棋與人工智慧圍棋之間的對抗徹底沒有了懸念。雖然 AlphaGo退役了，但根據他們的相關論文，後來又衍生出了絕藝、天壤、星陣、KataGo等諸多圍棋人工智慧，有的已經成為了大家日常研究圍棋的工具。在研發這些人工智慧的專家眼裡，“人工智慧攻克圍棋了嗎”這個問題是什麼樣的呢？　　天壤與樸廷桓的“人機大戰” 　　李凱華，原天壤圍棋負責人，2018年人機對弈擊敗樸廷桓。　　新浪棋牌：您覺得人工智慧攻克圍棋了嗎？　　李凱華：沒有。圍棋的變化數量決定了其最優解集合都可能是一個無法估計的大小。人工智慧當然沒有攻克圍棋。人工智慧目前所做到的是其探索的圍棋變化數量比人類已經探索的圍棋變化數量大出很多個數量級，大約是：AI目前所有的訓練棋譜 / （人類已經下過的所有棋譜+人類已經研究過的變化圖）大約 = 1萬倍到10萬倍。　　這個數量距離圍棋合法變化總數也就是10的170次方個盤面，仍然有相當大的差距。　　當然對於科學研究來說，AI已經做到了在現有技術條件下最大限度的探索。原因有兩點：　　1。通過數學層面的推導，可以得出通過深度神經網路和強化學習可以不斷讓棋力變強，所以只要：人類有足夠的時間和足夠的存放裝置可以生成並存儲10的170次方個盤面，一定可以找到圍棋的最優解。科學研究上走通了這條路就可以了。畢竟即使每一顆原子上都能存一個合法變化的，宇宙裡也只有10的70次方個原子，離圍棋的合法盤面總數還有 10的100次方倍。　　2。圍棋是完全資訊下的零和博弈，相比之下，德撲、麻將這種非完全資訊博弈，以及協作情況下的非零和博弈，甚至跳出博弈論層面，在生成層面，有更複雜的情況需要去研究，所以在14年Ian Goodfellow搞出來了生成式對抗網路，17年Google大腦搞出來了《 Attention is All You Need》，也就是ChatGPT的基礎Transformer模型。然後AI研究的領域前沿就一直是在Transformer模型了。　　3。現在來看結論是客觀上AI並沒有真的攻克圍棋，但是原理上已經找通了攻克圍棋的方法，所以科學上可以認為“人工智慧已經攻克了圍棋”。　　新浪棋牌：您認為當前人工智慧圍棋最高水準達到了什麼程度？　　李凱華：1。因為圍棋的合法盤面數是10的170次方，人類大概探索過不超過100萬種變化，人工智慧探索過差不多100億種變化。即使如此，還有10的160次方種變化，所以如果圍棋上帝是100的話，目前AI探索了不到兆分之一。人類是AI的萬分之一。離之前說的 7%，都相去甚遠。　　2。當前人工智慧的最高水準如果按最新的KataGo的強化學習來說，最新的模型達到了13500左右的Elo分。　　3。注意Elo分只能用來比較同一個體系下的相互強弱，也就是AI的Elo分和人的等級分是兩個體系，不能直接比較數值。除非找到一個錨點，比如用李世石的Elo分來估計 AlphaGo Lee版本的棋力。　　4。但是只有兩個人有充分的對局之後，Elo分所體現的強弱才有效，所以比如古力和李世石兩個人下了幾十盤棋，他們之間的Elo分差距可以表示他們的棋力強弱，但是想要Elo分的誤差在5分以內，兩個選手需要對局至少89局。想要誤差在3分以內，兩個選手需要對局至少200局。所以所謂用李世石的Elo分帶入AlphaGo的Elo分再比較AlphaGo和當時的棋手之間的棋力差距，純屬娛樂。對局太少。　　5。 Elo分還有膨脹的現象，即如果模型都是同一個風格，或者同一個體系的話，同時沒有外部模型的干擾，如果一個階段的模型出現過擬合的現象，那麼很快分數就會因為這些模型被膨脹起來。後續也無法進行修正。　　6。目前如果粗略估計一下棋力的話，最強的KataGo如果搭配很好的分散式伺服器，比如說給個100張A800顯卡，或者最新的那個GB800顯卡，讓人類最強棋手3-4子是可能的。不過那一局棋的電費恐怕得小10萬了。　　2018年與天壤對弈的樸廷桓九段　　新浪棋牌：後續研究的終點在哪裡，還有無難關？　　李凱華： 1。從AlphaGo到Leela到KataGo的路線相當於讓一個嬰兒只看棋譜學下棋。腦子只會下棋。所以需要大量的棋譜來教他。同時因為他其實是看圖學下棋，沒有邏輯推理能力，所以想要變強只能不停地自己下，看更多的變化來學習下棋。顯得很笨重。　　2。後續可能會希望讓ChatGPT，一個10幾歲智商但是什麼都會的孩子，但是有一定的語言方面的推理能力，看能不能不通過看圖的方式，而是研究棋譜的方式來學下棋，有沒有可能用更少的棋譜來實現跟AlphaGo一樣的強度。甚至等更強的ChatGPT 5.0版本，如果能相當於一個成年人的推理能力，應該會更順利。　　人機對弈現場　　新浪棋牌：人工智慧圍棋陪練技術有何發展？　　李凱華： 1。如果能走通讓語言模型來下棋的話，那麼讓語言模型來解釋它為什麼這麼下棋就是一件很輕鬆的事情了。　　2。目前的話職業棋手主要還是靠背和猜來理解人工智慧下的棋。　　3。面向孩子的AI陪練的等級和難度非常能把握，因為孩子棋力的提升是不連續的，往往是一個階段性躍升的情況。而且不同的棋力所對應的計算力、博弈能力也不是線性提升的，導致目前所有的調參都很蠢，基本上是無參可調的情況。這一方面可能是一個長期存在的問題。不妨等著4（a）解決了之後交給AI來解決吧。　　（周遊） https://sports.sina.com.cn/go/2024-05-14/doc-inavenmw3616642.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.190.76 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1715696472.A.435.html