新闻体育娱乐消费财经汽车申花星声大咖教育游戏法律投诉沪语播报侬好街头WHO侃魔都100企业服务
新闻中心>智胜彩票网址

在经历2500万个回合后,游戏变得更加复杂。躲藏者学会了移动和锁定在环境中的箱子和路障,以在自己周围建立堡垒,这样寻找者就永远看不到它们了。不仅如此,他们还制定了协调战略,例如相互传递物体,以加快建造堡垒的进程。

OpenAI的最终目标是构建能够在一个通用系统中执行多项任务的人工通用智能(AGI)。虽然可能会有不同的目标,但OpenAI正在大力投资由大规模计算能力实现的强化学习研究。OpenAI最近与微软签署了一份价值10亿美元的为期10年的计算合同。

2019年6月,在工行苏州分行,工行首家基于5G应用的新型智慧银行网点正式营业。该5G网点以5G技术为依托,通过深度集成和整合大数据、人工智能、生物识别等金融科技手段,建立客户与金融服务场景的紧密纽带,5G科技无人银行真的来了!我也相信,不会太长的时间,5G无人银行也将来到我所在的小城,这种将新科技应用于迎宾识别、互动体验、业务办理等客户全流程服务的新型银行实现了网点“无人化”、客户“自助化”,这是银行网点建设的又一次颠覆性革命。

为什么选择躲猫猫?该论文的第一作者、OpenAI研究员博文·贝克认为,躲猫猫被选为一个有趣的起点,主要是因为其规则很简单。所有游戏中的代理(Agent,也称智能体,指能自主活动的软件或硬件实体)都被模拟为球形对象,可执行3种类型的操作:导航、抓住并移动物体、锁定对象,且只能由该代理的队友解锁。

挑战在哪里?游戏代理有时会表现出令人惊讶的行为。例如,躲藏者试图完全逃离游戏区域,直到研究人员对此施加惩罚。其他挑战可能归因于模拟环境设计中的物理缺陷。例如,躲藏者了解到,如果他们在拐角处向墙壁推动斜坡,斜坡将由于某种原因穿过墙壁然后消失。这种“作弊”说明了算法的安全性如何在机器学习中发挥关键作用。研究人员说:“在它发生之前,你永远不会知道。这类系统总是存在缺陷。我们所做的基本上是观察,以便我们可以看到这种奇怪的事情发生,然后试着修复物理缺陷。”

AI如何玩躲猫猫?在经过数亿次的游戏后,AI代理经历了几个阶段的策略发展过程。在初始阶段,躲藏者(蓝色)和寻找者(红色)通过在空间中移动而不操纵任何物体,制定了非常粗糙的躲避和追逐策略。

研究人员在模拟的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“寻找者”,房间的边界是静态墙。环境中还包括不同尺寸的可移动箱子和可移动坡道。

这项研究为啥很重要?鉴于躲猫猫相对简单的目标,通过竞争性自我游戏训练的多个代理学会了使用工具,并采用人类相关技能来获胜。OpenAI认为,这为未来的智能代理开发和部署提供了一个有前景的研究方向。OpenAI正在开源其代码和环境,以鼓励在该领域进一步研究。

AI进行游戏的场景示意图。图片来源:OpenAI公司今日视点尽管机器学习在诸如围棋和Dota2等复杂游戏中取得了显著进步,但在这些领域掌握的技能并不一定能推广到真实场景中实际应用。越来越多的研究人员正在寻求建立一种机器智能,使其行为、学习和进化更像人类。

玩躲猫猫游戏 AI学会攻防术

研究人员使用强化学习来训练游戏代理,并遵循简单的躲猫猫规则:隐藏者成功躲过寻找者的追逐,或是寻找者成功找到躲藏者。

□范申那时,银行柜台上的铁栅栏开了一个小小的窗口,遇有个子稍矮一点的客户,人家站在柜台前还要踮一踮脚才能将存折和钱款递进窗口呢!柜台内的我们是国家干部,一个个正襟危坐,有点高高在上的感觉。这时的银行储蓄业务还是很简单,传统的活期、定期,外加定活两便、零存整取储蓄仍是居民们日常储蓄的选择。我们的业务也不是很忙,毕竟这时候人们的储蓄节余还不是很多,能在银行有个数千元的存款是很了不得的事。

曾经有句老话说:银行多过米铺。回望十几二十年前,这样的情形的确是真的,在传统业务方式下获取和服务客户,就得依靠网点的铺设和人工的投入,这是一个时代远去的背影。而今,借助金融科技的腾飞,工行从机构设置、网点建设、产品营销到服务方式、风险控制等都在发生着深刻和史无前例的变革,它更加促进着国民经济和社会的发展,更加满足着人民群众日益增长的金融服务需求,这是新中国金融事业不断进步向前的有力例证。今天的工行始终都在因时而变、因势而变、因你而变,这是真正的银行!

上班后不长时间,我所在的储蓄所成为我行第一批上马电脑储蓄的网点。当“长城0520”计算机摆上我们的柜台,我们已经能够用它快捷地进行登折记账、计算利息等多种储蓄业务,我行成为我县第一家开办电脑储蓄的银行。许多储户慕名而来,我还记得有一位来自乡镇的客户在我所在的柜台存了一万元定期存款,第一次亲眼所见“万元户”着实也让我兴奋了好几天。

在最后阶段,躲藏者学会在建造堡垒之前锁定所有箱子,以防止“箱子冲浪”。研究人员将这些不同策略的演变称为“来自多智能体自动课程的紧急技能进展”。“自动课程”这一术语是今年由DeepMind创造的,适用于多个代理逐渐创造新任务以在特定环境中相互挑战。OpenAI的研究人员认为,这个过程在自然选择方面具有相似之处。

然而,在游戏进行了7500万回合之后,寻找者发现了一个反策略。他们学会了在躲藏者的要塞旁边移动一个坡道,并用它来爬过墙壁。

工行之变

作为回应,躲藏者学会了将坡道移入他们的房间,因此寻找者无法用它来越过墙壁。随着环境变得越来越复杂,躲藏者学会了使用细长箱子建造更强大的“堡垒”。虽然OpenAI认为这将是最终的策略,但在游戏进行到3.8亿回合时,寻找者再次成功反击,找出一种方法来跳到一个盒子上并利用动力在它上面“冲浪”,越过墙壁进入堡垒。

躲猫猫游戏研究也激发了OpenAI,因为随着环境复杂性的增加,游戏中的代理不断地通过新策略自我适应新的挑战。贝克表示:“如果扩展像这样的流程,并将其放入更复杂的环境中,那么你可能会得到足够复杂的代理,以便为我们解决实际任务。”

声明:本网站所提供的信息仅供参考之用,并不代表本网赞同其观点,也不代表本网对其真实性负责。您若对该稿件内容有任何疑问或质疑,请尽快与智胜彩票网址联系,本网将迅速给您回应并做相关处理。联系方式:tousu@智胜彩票网址

本文来源:智胜彩票网址 责任编辑:幸运28app2019年09月19日 04:23:23

精彩推荐

©1996-智胜彩票网址版权所有

沪公网安备 31010602000009号互联网违法和不良信息举报中心

友情链接: