历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军
绝悟AI开始挑战更复杂的历史开放世界游戏环境了。
Minecraft (中文译名《我的最高I斩世界》) 是全球最畅销的开放世界3D游戏。随机生成的分腾开放地图、自由灵活的讯绝玩法、多线程长链条任务,竞赛给AI研究带来了极大挑战。冠军针对Minecraft的历史复杂环境,游戏AI赛事MineRL邀请全球程序员在4天时间内用一台计算机训练AI找到游戏中的最高I斩钻石。
12月8日,分腾第三届MineRL竞赛主赛道 (research track) 发布成绩,讯绝AI 的竞赛“钻石之梦”向前踏进了一大步:腾讯AI Lab“绝悟”以76.970分的绝对优势夺冠。研究成果已发布在Arxiv上,冠军算法框架可复用于其他复杂决策环境。历史
(论文链接:https://arxiv.org/abs/2112.04907)
MineRL竞赛由卡内基·梅隆大学、微软、DeepMind、OpenAI,联合机器学习顶级会议NeurIPS共同举办,极富挑战性的赛题持续吸引全球开发者关注。今年赛事共有59支团队、近500名选手投身其中,其中不乏世界顶级学府和研究机构的科研强队。竞赛的研究主题是:训练样本高效的Minecraft AI智能体。
腾讯AI Lab创新性地通过分层强化学习(Hierarchical Reinforcement Learning)、表示学习(Representation Learning)、自模仿学习(Self-imitation Learning)、集成行为克隆(Ensemble Behavior Cloning)等算法高效实现比赛目标。
(绝悟AI以压倒性优势获得历史最高分,今年榜单详见链接)
极度多样的环境、完全靠随机种子生成的地图、长决策序列与复杂的技能学习、高自由度玩法带来的海量策略偏好都增加了Minecraft AI研究的难度。比如,为了让AI在15分钟内找到钻石,AI需要经历徒手采集原木、合成木板、木棍与木镐,采集到铁矿,经过一系列加工才能合成钻石。
此外,主办方还制定了种种严苛的规则:包括禁止参赛者编写规则、游戏环境甚至将背包信息与动作空间加密、且不允许使用预训练模型,只允许与环境最多交互八百万次,每个参赛队伍只能使用6核CPU与半张NVIDIA K80显卡训练4天——这个配置几乎对于所有高校实验室与个人研究者都可以负担的。
这次比赛的目的在于促进样本高效 (Sample-efficient) 游戏AI算法的发展。目前流行的强化学习算法一般需要多达成百上千万次的试错来寻找最优流程,耗费大量的时间和计算资源。而纯靠人类数据的模仿学习算法虽然更快,但性能上往往不尽如人意。
(Minecraft 游戏截图)
绝悟AI创新性地提出了一种样本高效的基于分层强化学习(Hierarchical Reinforcement Learning)的解决方案。数据表明,腾讯AI Lab推出的上层控制器的预测准确率可以达到99.95%,也就是说,AI从人类数据中学到了一套几乎不出错的宏观策略,每时每刻都清晰地知道自己下一步的正确动向。
在状态空间表征上,Minecraft游戏遇到的最大挑战在于如何理解复杂的开放地图。首先被选中的是近年来热门的表示学习方法 (Representation Learning)。但研究人员很快发现,已有方法只适用于2D场景,在MineCraft游戏环境里效果很差。于是腾讯AI Lab设计了一种“基于动作感知”(Action-aware Representation Learning)的新颖算法,用来捕捉每个动作对环境产生的影响,形成注意力机制。实验表明,该算法可以显著提升智能体获得资源的能力与效率。
(不同动作的可视化结果,AI学会了关注当前图像中的关键区域)
随着游戏推进,智能体与人类的策略出现了很大的分歧。此时,人类数据已经很难用于指导AI。绝悟AI使用了自模仿学习 (Self-imitation Learning)的思想,提出了基于鉴别器的自模仿学习算法,AI可以从自身过往的成功与失败中获得经验与教训,并在察觉到当前状况不妙的时候,主动往更好的方向修正。对比实验证明,在加入自模仿策略后,智能体探索到的行为更加一致,也可以显著降低进入危险区域的概率。
对于合成物品等需要长链条的动作序列的任务,研究人员也做了细致的优化。通过动作序列一致性过滤 (Consistency Filtering) 与基于投票的集成学习(Ensemble Learning),模型在合成物品阶段的成功率从35%提升到96%,一举将最薄弱的链条扭转为了最稳定的制胜点。
利用高度复杂、高度定制化的游戏场景作训练场,腾讯 AI Lab 的深度强化学习智能体正不断走近现实。棋牌游戏 AI “绝艺”从围棋棋盘逐步走向象棋、麻将,策略协作型 AI “绝悟”从MOBA走向FPS、RTS,再到如今的 3D开放世界 MineCraft。它们迈向全新挑战的每一步,都让AI离解决现实问题、科技向善的大目标更近了一步。
随着虚实集成世界逐步变成现实,这些研究的经验、方法与结论,将在真实世界创造更大的实用价值。
雷峰网(公众号:雷峰网)
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
572
-
浏览
75445
-
获赞
599
热门推荐
-
佩蒂特:我们知道凯塞多和拉维亚为何去切尔西,他们去红军会更好
8月24日讯 前法国国脚佩蒂特接受了媒体的采访,就凯塞多和拉维亚的情况发表了看法。佩蒂特表示:“当凯塞多与利物浦联系在一起时他加盟了切尔西,拉维亚也一样,我不想说愚蠢的话,但我们都知道他们为何选择了蓝悲剧皇帝:血滴子没摘下雍正帝的脑袋
和西方的帝王不同,中国古代的封建制度,天子高于法律。九五之尊的皇帝,言论就是圣旨、法律。皇帝开金口,一言既出,就是令出如山。像明朝末代皇帝崇祯,把保卫国家的朝廷重臣袁崇焕(1584-1630)逮捕下狱呼伦贝尔空管站区域管制室开展雨雪天气复盘演练
通讯员/王海达)针对近期呼伦贝尔地区降雪增多,天气情况多发,容易发生延误、返航、备降等情况。呼伦贝尔空管站区域管制室组织开展雨雪天气复盘,所有区域管制员参加。此次天气复盘演练采用新型视频课件形式,由二秦宣太后“芈月”的人生格局可比宫斗戏大多了
太后之称,是从芈八子开始的。“太后之号,自秦昭王始也。”“母后临政,自秦宣太后始也。”她以太后身份统治秦国长达四十一年之久,“东益地,弱诸侯,尝称帝于天下,天下皆西向稽首。”那么,宣太后是如何做到一步黄金回到2700还需要几步?
汇通财经APP讯——周四11月28日)现货黄金价格小幅上涨,目前交投于2637.67美元/盎司,日内涨幅0.07%。尽管金价在早盘时段一度回落至2620美元/盎司,但随着避险情绪的升温以及市场对美联储神秘!历史上真实的精绝国真的存在吗?
伴随着《鬼吹灯之精绝古城》的火爆,人们对于天下霸唱小说中的那个精绝古城,充满了无尽的好奇之心。那么,《鬼吹灯》第一部里面的精绝古城,到底只是个传说,还是说历史上真的就存在过这样的一个古老国度,而现在已博学多才皇帝”康熙:曾自创地震理论
康熙(公元1654年-1722年)在位61年,一生经历无数次地震,其中七八级以上的大地震就有五六次:1668年山东郯城8.5级地震;1679年京师8级地震;1695年山西临汾8级地震;1709年宁夏中北周武帝宇文邕虔心向佛为何最终下令灭佛
在当代年轻一代看来,北周武帝宇文邕这个皇帝其实并不是怎么出名的,毕竟他既没有像秦始皇一样统一天下,又没有什么惊天动地的政治贡献夺人眼球。人们都知北周后的隋朝统一了国家,宇文邕比起隋文帝来说要逊色很多。反垄断调查!美国对微软开刀 直指云计算、AI
11月28日消息,据媒体报道,日前,美国联邦贸易委员会(FTC)对微软启动反垄断调查,调查范围从云计算和软件许可业务到网络安全产品和人工智能AI)产品。知情人士透露,在与微软的竞争对手和业务合作伙伴进解读雍正皇帝:心灵孤独 缺乏安全感
公元1723年,康熙的第四个儿子胤禛45岁。这一年,他问鼎中国。雍正王朝开始了。这是康熙盛世之后的中国。表面上,帝国依旧强悍无比。但是,很少有人知道,帝国的危机已是如影随形。那么,这亏空是怎么造成的,呼伦贝尔空管站开展自动化系统自查
通讯员:陈霄)近期,根据《关于推进空管自动化系统改进提升工作的通知》文件要求,呼伦贝尔空管站技术保障部开展了空管自动化系统自查工作,并对自查中发现的问题,制定了相应的方案和计划。现主、备自动化系统均为揭秘北宋末年权臣高俅发迹史始末是怎样的
高俅在水浒里是个大坏蛋,本身是东京街头的无赖,书上说他却多才多艺,这人吹弹歌舞,刺枪使棒,相扑顽耍,颇能诗书词赋。吹弹歌舞便是文艺范青年的标志,刺枪使棒便是小混混的标志,相扑玩耍说明这家伙也有相应的功vivo S20标准版体验:颜值实力派,年轻人的出片秘籍
不仅仅拥有更漂亮的中国风设计,还是一位实力派。京东方Q10护眼屏、天玑9300+芯片、超级出片的相机、升级的电池。从屏幕、相机再到性能体验,vivo S20系列都再次进阶。全新美学旗舰——vivo S呼伦贝尔空管站技术保障部开展自动化系统线上培训
通讯员:陈霄)近期,呼伦贝尔空管站技术保障部组织相关人员开展自动化系统线上培训。此次培训由华北空管局通信导航监视部组织,成都空管公司老师主讲。培训内容由浅入深、整体全面。讲解了自动化系统框架、主备同步中国航油唐山供应站以实战演练促消防能力提升
为贯彻落实“预防为主、防消结合”的工作方针,增强消防应对处置能力和救援能力,积累灭火实战经验,切实提高驻场单位之间协同作战和处置突发事件的快速反应能力,确保发生事故时准确判断险