DeepMind AI使用欺骗来击败人类玩家在战争中

拿仑主题的棋盘游戏Stratego具有大量可能的游戏状态杆Zadeh/shutterstockAI可以在棋盘游戏Stratego中击败专家人类玩家，该游戏具有比国际象棋或扑克更多的游戏场景。

由英国公司DeepMind开发的AI通过学习以较弱的作品虚张声势，为胜利而牺牲重要作品，成为以拿破仑主题的棋盘游戏策略的排名最高的在线玩家之一。

“对我们来说，最令人惊讶的行为是[AI]牺牲有价值的物品以获取有关对手的设置和战略的信息的能力，” DeepMind的Julien Perolat说。

Stratego的游戏涉及两名试图捕捉对手的旗帜在40件游戏中隐藏的旗帜。大多数碎片由一名到10到10的士兵组成，排名更高的士兵在董事会遭遇中击败了排名低的士兵。但是，除非反对军队的两块彼此相遇，否则玩家看不到对手游戏的身份 - 与国际象棋或象棋等游戏都可以看到一切都可以看到。

使这一挑战复杂化的事实是，Stratego是一款非常复杂的游戏，有10个⁵³⁵ 可能的游戏情况。相比之下，GO的游戏有10³⁶⁰ 可能的游戏状态。国际象棋和扑克更少。

Perolat和他在DeepMind的同事开发了他们的“ Deepnash ” AI，以在55亿场比赛中玩耍，以征服Stratego ，模拟训练时间大约等于数百年。但是，AI并不依赖于游戏特有的人类策略的任何知识，就像DeepMind的《星际争霸》游戏AI一样。它也没有训练与特定对手对抗。

DeepMind说，Deepnash AI并没有试图通过搜索所有可能的游戏场景来进行游戏，而是具有算法的算法，该算法将其行为不断地朝着经济游戏理论所告知的最佳策略。最佳策略是一种可以保证对一个完美对手至少50％的胜率，即使对手确切知道AI计划要做什么。

结果是AI能够做出获胜的决策，尽管有关其对手的隐藏信息，大量可能的游戏状态以及每个回合中可以采取的许多不同可能的动作。纽约大学的朱利安·托格利乌斯（Julian Togelius）说：“这是我们以前做不到的新事物。”

Deepnash已经统治着人类和AI对手。通过在线游戏平台与专家人类球员的50场比赛中，它在50场比赛中取得了84％的胜利，并成为前三名球员之一 - 没有人类对手意识到自己在玩AI。

DeepMind AI还击败了顶级战略竞争的机器人，其中几个以前赢得了计算机Stratego World Championship的胜利率。

马耳他大学的Georgios Yannakakis说：“优秀的球员倾向于记住对手的部署方式。”“ Deepnash既表现出色 - 可能在记忆方面具有竞争优势 - 并以有趣且不可预测的方式发挥作用，展示了虚张声势的元素。 ”

宾夕法尼亚州卡内基·梅隆大学的Tuomas Sandholm说，Deepnash游戏理论方法可以证明在非游戏情况下必须与其他智能演员（例如商业和国防）打交道的非游戏情况有用。

本文来自作者[admin]投稿，不代表象功馆立场，如若转载，请注明出处：https://wap.xianggongguan.cn/kexue/202506-115.html