您的位置：首页 > 数码 >

深度思维的人工智能再次击败人类玩家“捕获”57个雅达利

2020-04-02 13:42:00 丨来源：镁客网

听一听创业和满足融资需求的故事。

欢迎致电【镁客·请讲】

Agent57为我们构建更强大的人工智能决策模型奠定了基础。

规划与写作:吴潘

人工智能能比普通人玩得更好吗？心灵深处给出了肯定的回答。最近，DeepMind宣布它们的智能体Agent57首次在所有57款雅达利游戏上超越人类玩家。

近年来，DeepMind一直在研究如何在游戏环境中提高智能体的智能。通常，环境代理在游戏中能够处理的越复杂，它们在真实环境中的适应性就越强。

由代理57挑战的街机学习环境(ALE)包括57个游戏，这为代理的强化学习提供了复杂的挑战。

选择雅达利游戏作为训练数据集的原因是DeepMind表示雅达利游戏足够多样化，可以评估智能体的泛化性能，其次它可以模拟在真实环境中可能遇到的情况，并且雅达利游戏是由独立的组织构建，可以避免实验偏见。

据报道，在Agent57在多台计算机上并行执行，并启用强化学习算法（Reinforcement learning，简称“RL”）驱动智能体采取行动，使得奖励的效果最大化。之前，强化学习在游戏领域取得了很大的进步。例如，OpenAI的OpenAI五号和DeepMind的AlphaStar RL代理分别击败了99.4%的Dota 2玩家和99.8%的Star2玩家。

图|代理57的框架

蒙特祖玛，复仇和雅达利的陷阱都很难。人工智能必须尝试各种不同的策略才能找到可行的方法。在Solaris和滑雪游戏中，显示决策结果需要一些时间，这意味着人工智能必须在很长时间内收集尽可能多的信息。

代理57通过让不同的计算机研究游戏的各个方面克服了这些困难，然后将收集到的信息反馈给一个控制器，由控制器对所有这些因素进行分析以制定出最佳策略。

DeepMind将代理57与最先进的算法MuZero、R2D2和NGU进行了比较，代理57显示出更高的平均性能(100)。

研究小组说，“这并不意味着雅达利游戏研究的结束。我们不仅需要关注数据效率，还需要关注整体性能。例如，未来的主要改进可能会是Agent57在探索、规划和信度分配上。”可以降低人工智能操作的计算能力，并在一些更简单的游戏中变得更好。

在雅达利游戏中，Agent57取得了比人类玩家更好的结果，这为我们构建更强大的人工智能决策模型奠定了基础:人工智能不仅能自动完成重复性任务，还能自动推断环境。

星标我们，不要错过

镁客户网络

科学技术|人文|工业

深度思维的人工智能再次击败人类玩家“捕获”57个雅达利

栏目资讯

热门资讯

推荐图文

深度思维的人工智能再次击败人类玩家&ldquo;捕获&rdquo;57个雅达利

栏目资讯

热门资讯

推荐图文

深度思维的人工智能再次击败人类玩家“捕获”57个雅达利