有關 AI 機器學習的研究不僅專注在學術領域,電子遊戲本身也是人工智慧發展的指標項目。OpenAI 團隊近期發表一項機器學習研究成果,讓 AI 人工智慧透過自主學習,然後遊玩《Minecraft》,並達成 10 分鐘讓角色得已打造鑽石鎬的程度。
這項名為「Video PreTraining」(VPT)的研究是由 OpenAI 團隊 Bowen Baker 等 9 位工程師發表的論文成果,該團隊利用 VPT 透過網路上大量未標記的《Minecraft》遊戲影片進行神經網路訓練,同時加上少量已標記的數據模型,再透過後續微調機器行為,目的就是要讓 AI 能夠自主學習做出鑽石鎬。
簡略來說,VPT 先是透過行為複製模型,利用 7 萬小時的 IDM 標記進行強化學習(Reinforcement Learning)訓練,學習如何收集木頭,將原木製成木板,再製成工作台;該模型還學會人類玩家在遊戲中經常做出的動作,包含游泳、狩獵動物、甚至垂直蓋方塊立台。
根據官方計算,要在《Minecraft》每次隨機生成的地圖快速做出鑽石鎬,即便是熟練的老手玩家大致上也需要 20 分鐘左右完成,於是他們為 VPT 模型進行後續的微調工作。
從過程來看,《Minecraft》玩家角色必須先收集木頭打造工作桌與木棍,接著升級到石器工具來挖取金屬並製作熔爐,最後才能製作鐵鎬挖取鑽石礦製作鑽石,這當中需要至少 24,000 次操作數。
最終經過訓練,VPT 模型有 2.5% 的機率達成 10 分鐘就學會製作鑽石鎬,且在收集道具的表現還達到、甚至超越許多玩家的水準。
研究團隊表示,之所以選擇《Minecraft》來進行機器學習,是因為它是世界上玩家最活躍的遊戲之一,可輕易獲得大量的免費影像數據,加上遊戲本身是開放世界沙盒工藝玩法,有著類似現實世界的電腦程式操作。
藉由這項研究的成果,OpenAI 認為 VPT 機器學習能在各個領域上拓展了更多可能性,就連鍵盤與滑鼠的操作學習也適用,他們也認為 VPT 在其他電腦計算領域上能有更好的應用願景。
此外,他們還與「The MineRL 2021 Diamond Competition」賽事合作,鼓勵玩家利用 VPT 來解決《Minecraft》遊戲中的難題。