Re: [問題] 為什麼現在AlphaGO開始會"讓"呢?
看板GO (圍棋)作者BBSealion (Peaceful Warrior)時間9年前 (2017/05/23 20:23)推噓11(12推 1噓 29→)留言42則, 17人參與討論串2/5 (看更多)
這問題從第一次人機戰開始就不停有人問,我來認真解釋一下好了
其實推文也有人講到重點了
大家已經知道電腦看的是勝率了,這是根本原因沒錯
但這勝率是怎樣來的才是重點
簡單說AlphoGo有兩個系統
一個可以靠當下就猜出大概每步棋的價值(可以簡單想成勝率)
另一個就是,反正我就選一步,然後自己左右互搏下他個上千盤,看勝率多少就好
目前v25版本的第一個系統到底有多準
還有這兩個系統現在互相比重佔了幾成
在官方公布前不知道
我們就簡單先拿容易理解的第二系統來說
就會知道AlphaGo到底在"讓"什麼鬼了
現在假想一個情境:AlphaGo執白,棋局已到中後盤全局無弱棋,領先5目半
但這"領先5目半"從人類的角度來看的
電腦看到什麼呢?他只看到"我怎麼下勝率都接近100%"
那假如現在有10個可能的選點
其中最好的一手(不損目)的只有1種
損1目、損2目、損3目的各三種
AlphaGo把每一種都試一次之後結果會發現,啊怎麼好像都一樣啊?(勝率都接近100%)
於是只剩一些微小的模擬隨機誤差來決定他想選哪個
簡單說等於他就是隨便選了一個,當然選中最佳解的機率是不高的
所以雖然人類角度看起來他就是在損、在讓
但在電腦的角度這叫做"我就真的不知道哪個比較好啊?看起來不都一模一樣嗎?"
當然,這絕對是不影響最終勝負的
因為假如電腦不幸選了損3目的棋,現在上帝視角來看盤面只領先2目半了
下一次同樣看到10的選點,一樣的價值分布
他會發現,不損目、損1目、損2目的勝率都一樣,接近100%,但損3目的勝率只有30%
他很自然就會在前三種可能性隨機挑一個,但絕不會挑到會輸的那種
如此隨機的挑著挑著,由於每次最佳解被挑到的機率,一定小於其他解
最後結果就是會變成只贏一點點,但他就是會贏
這其實是很有趣的一個地方
因為”思考方式”的不同造成互相不理解
就像電腦也會覺得人類布局的棋非常詭異(假如電腦有感情的話)
明明我試了一千次就發現A下法勝率比B下法高5百分點
你為什麼還是選A,你是故意在讓我嗎?
他就無法理解人類真的就是沒辦法看出A、B哪個選點比較好
就只是靠感覺隨便選了一個而已
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.6.25
※ 文章網址: https://www.ptt.cc/bbs/GO/M.1495542184.A.EC1.html
推
05/23 20:27, , 1F
05/23 20:27, 1F
→
05/23 20:29, , 2F
05/23 20:29, 2F
→
05/23 20:29, , 3F
05/23 20:29, 3F
→
05/23 20:30, , 4F
05/23 20:30, 4F
→
05/23 20:30, , 5F
05/23 20:30, 5F
→
05/23 20:32, , 6F
05/23 20:32, 6F
→
05/23 20:32, , 7F
05/23 20:32, 7F
推
05/23 21:07, , 8F
05/23 21:07, 8F
→
05/23 21:08, , 9F
05/23 21:08, 9F
→
05/23 21:17, , 10F
05/23 21:17, 10F
→
05/23 21:26, , 11F
05/23 21:26, 11F
→
05/23 21:26, , 12F
05/23 21:26, 12F
→
05/23 21:27, , 13F
05/23 21:27, 13F
→
05/23 21:34, , 14F
05/23 21:34, 14F
→
05/23 21:36, , 15F
05/23 21:36, 15F
推
05/23 22:07, , 16F
05/23 22:07, 16F
推
05/23 22:59, , 17F
05/23 22:59, 17F
→
05/23 22:59, , 18F
05/23 22:59, 18F
推
05/23 23:13, , 19F
05/23 23:13, 19F
→
05/23 23:14, , 20F
05/23 23:14, 20F
→
05/23 23:14, , 21F
05/23 23:14, 21F
推
05/23 23:40, , 22F
05/23 23:40, 22F
→
05/23 23:40, , 23F
05/23 23:40, 23F
→
05/23 23:40, , 24F
05/23 23:40, 24F
→
05/23 23:40, , 25F
05/23 23:40, 25F
推
05/24 00:08, , 26F
05/24 00:08, 26F
→
05/24 01:03, , 27F
05/24 01:03, 27F
→
05/24 01:03, , 28F
05/24 01:03, 28F
推
05/24 02:10, , 29F
05/24 02:10, 29F
推
05/24 03:27, , 30F
05/24 03:27, 30F
→
05/24 03:27, , 31F
05/24 03:27, 31F
→
05/24 03:27, , 32F
05/24 03:27, 32F
→
05/24 03:27, , 33F
05/24 03:27, 33F
噓
05/24 05:08, , 34F
05/24 05:08, 34F
推
05/24 07:09, , 35F
05/24 07:09, 35F
推
05/24 07:56, , 36F
05/24 07:56, 36F
→
05/24 07:56, , 37F
05/24 07:56, 37F
→
05/24 07:57, , 38F
05/24 07:57, 38F
推
05/24 10:46, , 39F
05/24 10:46, 39F
→
05/24 10:48, , 40F
05/24 10:48, 40F
→
05/24 10:48, , 41F
05/24 10:48, 41F
→
05/24 12:07, , 42F
05/24 12:07, 42F
稍微澄清一下
1.
100%是誇張的說法,實際上通常頂多就是70%, 80%之類,
但這對電腦已經算是很穩的意思了,套句人類口語說法就是"贏定了"
2.
如果某損目下法,確實能讓局面更穩勝率提高,這選擇沒啥爭議,
我只是特別針對某些明明看起來損了目,
同時其他不損目的下法也完全看不出有什麼風險在裡面,
甚至感覺上沒有減少到任何複雜度的特別情境討論而已
很多人懷疑這種100%盡損的棋一定是刻意讓,其實不是
3.
這只是個簡化和只取片段的說法
若直接照搬說AlphaGo就是這樣判斷的,確實會有點誤導之嫌,
我只是單純用非常簡單誇張的例子,
讓大家試著從勝率之眼去看棋盤,
而不是從人類數目的眼光去看
※ 編輯: BBSealion (114.25.6.25), 05/24/2017 21:30:00
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 2 之 5 篇):
GO 近期熱門文章
PTT遊戲區 即時熱門文章
14
15