行业报告 AI展会数据标注标注供求

主页 > 人工智能 > 正文

CMU德扑AI赌神，现已拿下美军千万美元大单

　　

　　美国军方看中了什么？

　　冷扑大师，是基于博弈而生的。与其他棋类AI相比大有不同。

　　在围棋、象棋等棋类比赛中，比赛双方能够共享所有信息。在博弈论中，这被称为“完美信息博弈”。

　　在德州扑克中，牌并不会全部发完，每个人手中的牌对其他的选手来说，也都是隐藏的。任意时间，任何一个玩家，都只能观察到一部分的情况，然后据此做出决策。

　　这是一种“不完美信息”的博弈。在现实世界中，不完美信息才是常态，各种看不见的隐藏信息产生了大量的不确定性。

　　尤其是在军事场景中，各种谍报与反谍报工作错综复杂，怎样做出最正确的决策，一直是难题所在。

　　能够在德扑这种不完美信息的场景中打败顶级人类选手，就证明了冷扑大师的价值所在。

　　那么，它是怎么做到的呢？

　　背后原理

　　冷扑大师最核心的概念就是纳什均衡，应用的是CounterFactual Regret Minimization(CFR，反事实遗憾最小化)算法，这是一个类似强化学习的算法，但是更高效。

　　在早期的版本中，主要由三个模块构成。其中一个用于赛前，两个用于赛中。

　　Sandholm讲解冷扑大师

　　赛前的模块，是纳什均衡近似，使用蒙特卡洛CFR算法（CFR的变体），抽取最重要的博弈信息，比如针对某一手牌对应的战略，应用强化学习等方法寻求提高和改进。

　　比赛过程中的模块分别是残局解算和持续自我强化。

　　前者是针对对手的，对手出新招之后，冷扑大师就会展开残局解算，寻找最佳应对策略，这个过程会在比赛中持续进行。

　　后者是针对自身的，用于发现自己的漏洞，找到更多细节进行自我强化，然后得到一个更好的纳什均衡。

　　更多的细节，都被Sandholm教授写在了相关的论文中。这篇论文获得了2017年NIPS最佳论文奖。

　　（传送门在文末）

　　这样实时求解的过程，耗费的算力非常巨大。想要运行冷扑大师，最低都需要50个笔记本。

　　而进行一对一的无限注德扑比赛，每手需要50个CPU进行运算，而且响应速度也没法得到保证。

　　不断进化

　　2018年5月，Sandholm教授团队提交了一篇新论文。

　　这篇论文引入了一种深度有限求解方法，允许对手在深度有限的情况下为游戏剩余部分选择多种策略。

　　每一个策略中都会为叶节点生成一组不同的值，从而使智能体对对手可能采取的不同策略保持鲁棒。

　　在这种方法下，使用一块4核的CPU和16G的内存（相当于一个笔记本）提供的算力，就能击败之前的两个顶级的智能体。

　　一个是2016年计算机扑克竞赛的获胜者Baby Tartanian8，一个是2018年计算机扑克竞赛的获胜者Slumbot。

　　而且，在响应速度上也能够与人类大师媲美，平均一手只需要20秒。（论文传送门在文末）

　　11月份，Sandholm教授团队再次提交了一篇论文。

　　这次，他们介绍了一些优化CFR算法的方法。分别是：

　　采用各种策略在早期迭代中减低后悔值（regret），在某些情况下，对正负后悔值采用不同的方式。

　　采用各种策略重新迭代，来获得更好的输出策略。

　　采用非标准化的后悔值最小化方式。

　　利用乐观后悔值匹配（optimistic regret matching）。

　　这些方法，能够帮助CFR算法在许多环境中提高性能。

　　在测试中发现，应用了这些策略的蒙特卡洛CFR算法与vanilla 蒙特卡洛CFR算法相比，模型在德州扑克上具有更优越的表现。

　　想要了解更多的细节，可以阅读论文。（论文传送门在文末）

　　越来越多的军用AI

　　2018年年初，Sandholm教授创立了一家名为“Strategy Robot”的公司，来将冷扑大师的技术军用化。

　　8月下旬，这家公司就与美国军方签订了一个1000万美元的合同，为期两年。这一合同，被认为是对国防创新部门（Defense Innovation Unit ）的支持。

　　这是一个2015年成立的组织，在五角大楼内办公，旨在帮助美国军方更快地利用新兴的商业技术。

　　在军事化的道路上，冷扑大师并不孤单。

　　2017年，时任美国国防部长的James Mattis表示，在采用机器学习等技术方面，国防部远远落后于科技公司。

　　同年，五角大楼启动了一项名为Project Maven的计划，旨在通过商业化的AI技术来改变军事行动方式。

　　初始项目，机器学习技术来标记无人机监控视频中的对象，参与者有AI创业公司，也有谷歌在内的大公司。

　　军方对AI的兴趣越来越浓，让一切推进基础技术的人员感到不安。

　　2018年，在上千名谷歌员工联名抵制，学界大牛纷纷联署反对之后，谷歌退出五角大楼的Project Maven计划，并发布使用AI的七项原则。

　　其中就包括不会将AI技术应用于开发武器等等。

　　不过，谷歌也表示，将会继续与政府和军方展开AI合作，例如网络安全、培训以及征兵等领域。

　　在Sandholm教授看来，对军方使用AI的担忧言过其实。他认为，这项技术对于保护国家安全和提高作战效率非常重要。

　　“我认为，这将使世界变得更加安全，”他说。

微信公众号

时间:2019-01-20 01:20 来源: 转发量:次

声明：本站部分作品是由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，转载的目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。

上一篇：为了搞清楚心动的感觉，腾讯程序员研发了一款
下一篇：支付宝将牵头制定生物识别国际标准

网友评论：

发表评论

最新评论 进入详细评论页>>

最新文章

SEM推广服务

热门文章

热点图文

Copyright©2005-2026 Sykv.com 可思数据版权所有京ICP备14056871号

关于我们免责声明广告合作版权声明联系我们原创投稿网站地图

可思数据数据标注行业联盟

扫码入群

微信公众号