加上之前在圍棋上的進(jìn)展,這其實(shí)等于是說,公園戶外玻璃鋼人物小品下象棋雕塑都可以用一個(gè)架構(gòu)輕松碾壓過去的高手,不管是人還是程序。這篇文章正在被審核,按Deepmind過去的風(fēng)格有可能還是投到《自然》去。但這回Deepmind不保密了,直接在arxiv.org公布了全文。
前兩篇圍棋AI的文章由于投出來之后有人機(jī)大戰(zhàn),是需要保密。這篇文章在圍棋上,用訓(xùn)練34小時(shí)的AlphaZero和訓(xùn)練72小時(shí)的AlphaGoZero相比,100盤60:40。這個(gè)結(jié)果并不令人吃驚,就是訓(xùn)練速度快了,說明新的方法有提升,其實(shí)網(wǎng)絡(luò)架構(gòu)訓(xùn)練方法和AlphaGoZero的差不太多,是一些小改進(jìn)。
圍棋界對(duì)這篇文章應(yīng)該反應(yīng)不大,人物小品下象棋雕塑不多,早就被震驚好幾次了。AlphaZero在日本將棋上訓(xùn)練2小時(shí)就超過最強(qiáng)程序Elmo。