强化学习允许人工智能通过探索和理解来做出决策

根据《自然》杂志最近发表的一项研究,一种强化学习算法的得分超过了Atari经典游戏中的人类玩家和现有的人工智能系统。

这种算法统称为Go-Explore,它可以改善对复杂环境的探索,或者有望朝着实现真正智能学习体迈出重要一步。

强化学习使人工智能系统能够通过探索和理解复杂的环境来做出决策,并学习如何以最佳方式获得奖励。

但是,当遇到反馈很少的复杂环境时,当前的强化学习算法似乎很容易碰壁。

但是Go-Explore突破了这些障碍。

它可以全面探索环境,同时建立一个档案库来记住去过的地方,以确保它不会忘记通往希望成功或最终胜利(奖励)的中期阶段的道路。

使用这种算法,本文的作者解决了2600场以前没有解决过的Atari游戏,验证了这种算法的潜力。

作者指出,记住并返回预期成功的勘探区的简单原理是一种强大而通用的勘探方法。

他们认为,该论文中报告的算法有望应用于机器人技术,语言理解和药物设计。