行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 人工智能 > 正文

CMU德扑AI赌神,现已拿下美军千万美元大单

\  
  美国军方看中了什么?
 
  冷扑大师,是基于博弈而生的。与其他棋类AI相比大有不同。
 
  在围棋、象棋等棋类比赛中,比赛双方能够共享所有信息。在博弈论中,这被称为“完美信息博弈”。
 
  在德州扑克中,牌并不会全部发完,每个人手中的牌对其他的选手来说,也都是隐藏的。任意时间,任何一个玩家,都只能观察到一部分的情况,然后据此做出决策。
\
  这是一种“不完美信息”的博弈。在现实世界中,不完美信息才是常态,各种看不见的隐藏信息产生了大量的不确定性。
 
  尤其是在军事场景中,各种谍报与反谍报工作错综复杂,怎样做出最正确的决策,一直是难题所在。
 
  能够在德扑这种不完美信息的场景中打败顶级人类选手,就证明了冷扑大师的价值所在。
 
  那么,它是怎么做到的呢?
 
  背后原理
 
  冷扑大师最核心的概念就是纳什均衡,应用的是CounterFactual Regret Minimization(CFR,反事实遗憾最小化)算法,这是一个类似强化学习的算法,但是更高效。
 
  在早期的版本中,主要由三个模块构成。其中一个用于赛前,两个用于赛中。
\
  Sandholm讲解冷扑大师
 
  赛前的模块,是纳什均衡近似,使用蒙特卡洛CFR算法(CFR的变体),抽取最重要的博弈信息,比如针对某一手牌对应的战略,应用强化学习等方法寻求提高和改进。
 
  比赛过程中的模块分别是残局解算和持续自我强化。
 
  前者是针对对手的,对手出新招之后,冷扑大师就会展开残局解算,寻找最佳应对策略,这个过程会在比赛中持续进行。
 
  后者是针对自身的,用于发现自己的漏洞,找到更多细节进行自我强化,然后得到一个更好的纳什均衡。
 
  更多的细节,都被Sandholm教授写在了相关的论文中。这篇论文获得了2017年NIPS最佳论文奖。
 
  (传送门在文末)
\
  这样实时求解的过程,耗费的算力非常巨大。想要运行冷扑大师,最低都需要50个笔记本。
 
  而进行一对一的无限注德扑比赛,每手需要50个CPU进行运算,而且响应速度也没法得到保证。
 
  不断进化
 
  2018年5月,Sandholm教授团队提交了一篇新论文。
\
  这篇论文引入了一种深度有限求解方法,允许对手在深度有限的情况下为游戏剩余部分选择多种策略。
 
  每一个策略中都会为叶节点生成一组不同的值,从而使智能体对对手可能采取的不同策略保持鲁棒。
 
  在这种方法下,使用一块4核的CPU和16G的内存(相当于一个笔记本)提供的算力,就能击败之前的两个顶级的智能体。
 
  一个是2016年计算机扑克竞赛的获胜者Baby Tartanian8,一个是2018年计算机扑克竞赛的获胜者Slumbot。
 
  而且,在响应速度上也能够与人类大师媲美,平均一手只需要20秒。(论文传送门在文末)
 
  11月份,Sandholm教授团队再次提交了一篇论文。
\
  这次,他们介绍了一些优化CFR算法的方法。分别是:
 
  采用各种策略在早期迭代中减低后悔值(regret),在某些情况下,对正负后悔值采用不同的方式。
 
  采用各种策略重新迭代,来获得更好的输出策略。
 
  采用非标准化的后悔值最小化方式。
 
  利用乐观后悔值匹配(optimistic regret matching)。
 
  这些方法,能够帮助CFR算法在许多环境中提高性能。
 
  在测试中发现,应用了这些策略的蒙特卡洛CFR算法与vanilla 蒙特卡洛CFR算法相比,模型在德州扑克上具有更优越的表现。
 
  想要了解更多的细节,可以阅读论文。(论文传送门在文末)
 
  越来越多的军用AI
 
  2018年年初,Sandholm教授创立了一家名为“Strategy Robot”的公司,来将冷扑大师的技术军用化。
 
  8月下旬,这家公司就与美国军方签订了一个1000万美元的合同,为期两年。这一合同,被认为是对国防创新部门(Defense Innovation Unit )的支持。
\
  这是一个2015年成立的组织,在五角大楼内办公,旨在帮助美国军方更快地利用新兴的商业技术。
 
  在军事化的道路上,冷扑大师并不孤单。
 
  2017年,时任美国国防部长的James Mattis表示,在采用机器学习等技术方面,国防部远远落后于科技公司。
 
  同年,五角大楼启动了一项名为Project Maven的计划,旨在通过商业化的AI技术来改变军事行动方式。
 
  初始项目,机器学习技术来标记无人机监控视频中的对象,参与者有AI创业公司,也有谷歌在内的大公司。
 
  军方对AI的兴趣越来越浓,让一切推进基础技术的人员感到不安。
 
  2018年,在上千名谷歌员工联名抵制,学界大牛纷纷联署反对之后,谷歌退出五角大楼的Project Maven计划,并发布使用AI的七项原则。
\
  其中就包括不会将AI技术应用于开发武器等等。
 
  不过,谷歌也表示,将会继续与政府和军方展开AI合作,例如网络安全、培训以及征兵等领域。
 
  在Sandholm教授看来,对军方使用AI的担忧言过其实。他认为,这项技术对于保护国家安全和提高作战效率非常重要。
 
  “我认为,这将使世界变得更加安全,”他说。
微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2026 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

扫码入群
扫码关注

微信公众号

返回顶部