您的位置
主页 > 网站优化 » 正文

围棋算啥?吃豆游戏上 微软AI也完爆人类

来源:www.jz265.com 点击:1769

微软研究人员创造了一种人工智能系统,该系统在20世纪80年代的世界流行视频游戏Pac-Man女士中获得了最高分。该系统在更大程度上采用了分而治之的策略。地面影响AI代理,以便完全清除游戏。

今年早些时候,微软收购了人工智能创业公司Maluuba。 Maluuba团队使用强化学习技术(机器学习的分支)在Pac-Man游戏的Atari 2600版本中完美运行。使用这种方法,球队在这场比赛中得分为999,990。

加拿大蒙特利尔麦吉尔大学计算机科学研究员Doina Precup副教授表示,人工智能研究人员经常使用各种视频游戏来测试他们的系统,但研究人员发现吃豆人游戏是最难克服的。

然而,Precup表示,她对研究人员获得结果的过程比研究人员更感兴趣。为了在吃豆人游戏中获得更高的分数,Maluuba团队将控制吃豆人游戏的大问题分解为几个小问题,然后将小问题分发给AI代理。

Precup说:“这种划分策略的想法使得Maluuba研究人员可以使用不同的系统来实现相同的目标。这是一件非常有趣的事情。”

她还说:“这个想法类似于大脑如何工作的理论,它可以在更大程度上影响AI代理教学,并使用有限的信息来完成更复杂的任务。如果你可以完美地使用分而治之的战略,然后人工智能将向前迈出一大步,这真的令人兴奋。“

Maluuba团队将这种分而治之的策略称为混合奖励架构,它使用150多个人工智能代理,每个代理都独立于其他代理,并且精通Pac-Man游戏。例如,一些代理人成功地找到了豆子将获得的奖励,而其他人则必须因为存在鬼魂而留在原地。

然后,研究人员在Pac-Man游戏中创建了一个顶级代理,就像公司的高级经理一样,顶级代理可以得到所有代理人的建议,经过全面分析,最高代理商决定Pac-Man应该如何移动。

最高代理根据在每个方向上选择的代理的数量来确定移动方向,但还需要考虑代理想要在某个方向上移动的反应的强度。

例如,如果100代理想向右移动,因为向右移动是他们最好的路径,但是有3个人想要向左移动,因为右边有一个致命的幽灵,然后是三个代理人向左移动。力量明显强于其他特工,考虑到幽灵的存在,最高经纪人应该决定向左移动。

Maluuba的研究经理Harman Van Seijen发表了一篇关于他们最新研究的文章,其中指出当每个代理人做出决定性选择时,最高代理人会全面使用每个代理人的信息。最好的选择,那么你可以在吃豆人游戏中获得最好的结果。 Harman Van Seijen说:“虽然每个代理商只关心一个特定的问题,但他们之间有很好的互动。”

Harman Van Seijen

为什么AI主要研究Pac-Man小姐的游戏]

使用最先进的人工智能研究方法打败像20世纪80年代的Atari Pac-Man游戏这样的简单游戏似乎令人难以置信。

但是Maluuba的项目经理Rahul Mehrotra表示,使用算法赢得这些简单的视频游戏实际上非常困难,因为游戏过程中会遇到各种各样的情况。

Mehrotra说:“许多从事人工智能的公司都在构建游戏智能算法,因为公司希望人工智能具备玩人类游戏的技能。”

Steve Golson是Pac-Man Miss游戏街机版的创始人之一。他说吃豆人原本定位为街机游戏。他希望比赛继续吸引人们走出宿舍,所以吃豆人的比赛必须掌握人类。一个无法完全征服的游戏程序。

史蒂夫戈尔森

运营咨询公司Trilobyte Systems的Golson表示,他们故意将Pac-Man小姐游戏设计为比平均吃豆人游戏更难以预测,因此玩家难以通过。复杂的游戏让研究人员使用AI代理来响应随机环境。

Golson还说:“使用AI代理清除Pac-Man小姐的游戏是可行的,但由于游戏的随机性,需要设计的AI程序将特别复杂。”

强化学习

这种不可预测性对于在不断发展的强化学习领域工作的研究人员非常有价值。在人工智能研究中,强化学习是监督学习的一个副本,这是一种更常用的人工智能方法,可以使系统在完成任务时更好。

通过强化学习,代理人对每个行动做出积极或消极的反应,通过不断的实验和错误最大化积极的回应或奖励。

具有监督学习的AI系统通过提供好的和不恰当的示例来学习如何在对话中适当地做出响应。强化学习系统是通过系统学习对话,在对话中做出正确的反应,然后获得更高水平的反馈。

AI专家认为,强化学习可用于创建AI代理,可以做出更多决策,执行更复杂的任务,并为人们提供更高水平的服务。

Mehrotra表示,他们开发的通过Pac-Man小姐游戏的系统可以为人们提供更好的服务。它可以帮助公司的销售部门在特定时间或任何时间预测产品的潜在客户。系统可以使用多个代理,每个代理客户,并且可以预测许多重要因素,例如哪些客户将续订合同以及哪些合同对公司有价值。

在人工智能系统预测的帮助下,销售主管可以将更多时间投入到潜在客户身上,这将增加销售机会,因为销售人员的目光是针对最容易下订单的客户。

Van Seijen说他希望这种分而治之的策略可以用于人工智能研究的其他领域,例如自然语言处理。他还说:“分区策略使人们能够在解决实际和复杂问题方面取得进展。”