Google 旗下 DeepMind 開發出來的 AlphaGo,在人類圍棋界打遍天下無敵手,但最近卻遭到一位小老弟 100:0 的局數完虐。DeepMind 在《Nature》發表最近論文,介紹最新版的 AlphaGo Zero,純粹靠強化學習,就成為最強的棋士。
原先舊版 AlphaGo 開發時,先靠人類千年的智慧奠基,由過去的棋譜強化學習運算,算是綜合各家招數後自成一派。但是最新版的 AlphaGo Zero,研究人員只提供遊戲的規則,在不依賴人類數據之下自學,結果「無招勝有招」,表現更勝前代 AlphaGo。
DeepMind 作者群在論文中寫道,AlphaGo Zero 證明了即使在最具挑戰的領域,純強化學習的方法也是完全可行的-完全不需要人類提供範例或指導,不提供基本規則以外的任何領域知識,使用強化學習就能夠超越人類的水準。
此外,純強化學習方法只花費額外很少的訓練時間,相較於使用人類數據,實現了更好的漸進性能(asymptotic performance)。
在很多情況下,人類數據,特別是專家數據,往往太過昂貴,或者根本無法取得。因此,作者認為,如果類似的技術可以應用到其他問題上,這些突破就有可能對社會產生積極的影響。
DeepMind 在論文中指出,在進行了 3 天的自我訓練後,AlphaGo Zero 在 100 局比賽中以 100:0 擊敗了上一版本的 AlphaGo,也就是打敗南韓九段棋士李世乭的版本。之後,再經 40 天的自我訓練後,AlphaGo Zero 變得更加強大,超越了「Master」版本的 AlphaGo-完勝柯潔的版本。
更多精彩內容請至 《鉅亨網》 連結>>
我是廣告 請繼續往下閱讀
DeepMind 作者群在論文中寫道,AlphaGo Zero 證明了即使在最具挑戰的領域,純強化學習的方法也是完全可行的-完全不需要人類提供範例或指導,不提供基本規則以外的任何領域知識,使用強化學習就能夠超越人類的水準。
此外,純強化學習方法只花費額外很少的訓練時間,相較於使用人類數據,實現了更好的漸進性能(asymptotic performance)。
在很多情況下,人類數據,特別是專家數據,往往太過昂貴,或者根本無法取得。因此,作者認為,如果類似的技術可以應用到其他問題上,這些突破就有可能對社會產生積極的影響。
DeepMind 在論文中指出,在進行了 3 天的自我訓練後,AlphaGo Zero 在 100 局比賽中以 100:0 擊敗了上一版本的 AlphaGo,也就是打敗南韓九段棋士李世乭的版本。之後,再經 40 天的自我訓練後,AlphaGo Zero 變得更加強大,超越了「Master」版本的 AlphaGo-完勝柯潔的版本。
更多精彩內容請至 《鉅亨網》 連結>>