OpenAI機器學習玩《Minecraft》成功在10分鐘做出鑽石鎬

69bde8ed-27f9-4f28-94a1-4dde4bc58c9d

 

有關 AI 機器學習的研究不僅專注在學術領域,電子遊戲本身也是人工智慧發展的指標項目。OpenAI 團隊近期發表一項機器學習研究成果,讓 AI 人工智慧透過自主學習,然後遊玩《Minecraft》,並達成 10 分鐘讓角色得已打造鑽石鎬的程度。

 

這項名為「Video PreTraining」(VPT)的研究是由 OpenAI 團隊 Bowen Baker 等 9 位工程師發表的論文成果,該團隊利用 VPT 透過網路上大量未標記的《Minecraft》遊戲影片進行神經網路訓練,同時加上少量已標記的數據模型,再透過後續微調機器行為,目的就是要讓 AI 能夠自主學習做出鑽石鎬。

 

7be32ce8ab04db77f2997ac56779c23d
VPT 機器學習概要(Credit: OpenAI

 

簡略來說,VPT 先是透過行為複製模型,利用 7 萬小時的 IDM 標記進行強化學習(Reinforcement Learning)訓練,學習如何收集木頭,將原木製成木板,再製成工作台;該模型還學會人類玩家在遊戲中經常做出的動作,包含游泳、狩獵動物、甚至垂直蓋方塊立台。

 

根據官方計算,要在《Minecraft》每次隨機生成的地圖快速做出鑽石鎬,即便是熟練的老手玩家大致上也需要 20 分鐘左右完成,於是他們為 VPT 模型進行後續的微調工作。

 

從過程來看,《Minecraft》玩家角色必須先收集木頭打造工作桌與木棍,接著升級到石器工具來挖取金屬並製作熔爐,最後才能製作鐵鎬挖取鑽石礦製作鑽石,這當中需要至少 24,000 次操作數。

 

ae6a55f7bb6da2a6a09488cd9cfd973a
VPT 機器學習概要(Credit: OpenAI

 

最終經過訓練,VPT 模型有 2.5% 的機率達成 10 分鐘就學會製作鑽石鎬,且在收集道具的表現還達到、甚至超越許多玩家的水準。

 

研究團隊表示,之所以選擇《Minecraft》來進行機器學習,是因為它是世界上玩家最活躍的遊戲之一,可輕易獲得大量的免費影像數據,加上遊戲本身是開放世界沙盒工藝玩法,有著類似現實世界的電腦程式操作。

 

 

藉由這項研究的成果,OpenAI 認為 VPT 機器學習能在各個領域上拓展了更多可能性,就連鍵盤與滑鼠的操作學習也適用,他們也認為 VPT 在其他電腦計算領域上能有更好的應用願景。

 

此外,他們還與「The MineRL 2021 Diamond Competition」賽事合作,鼓勵玩家利用 VPT 來解決《Minecraft》遊戲中的難題。

推薦電競新聞

繼續閱讀
Source OpenAI機器學習玩《Minecraft》成功在10分鐘做出鑽石鎬 https://www.4gamers.com.tw/news/detail/53889/learning-to-play-minecraft-with-video-pretraining……