说起人工智能,大家可能比较熟悉的是AlphaGo,但在业界更加受人瞩目的是德州扑克人工智能程序——冷扑(Libratus)。在今年年初,Libratus战胜美国四位顶尖德州扑克大师。那么,Libratus是如何战胜人类世界冠军的?
卡耐基梅隆大学计算机系教授、德扑AI之父 Tuomas Sandholm
Libratus之父Tuomas Sandholm教授日前在杉数科技和钛媒体主办的“AI大师圆桌系列”第三场“AI时代,博弈与行为分析”中详细阐述了Libratus如何战胜人类世界冠军。 Libratus使用的这些技术如何服务公众、社会,如何去创造新的商业机会。
AI是如何战胜人类世界冠军的
德州扑克这个场景下,没有海量的棋谱,没有充分公开的完全信息,Tuomas Sandholm教授组织研发的Libratus系统结合优化博弈论和机器学习等算法,是迄今能够击败德扑最顶级高手的唯一一种人工智能系统,在战略推理和战略思维方面达到了超越人类的水平。
在一对一无限注德州扑克中,游戏中两个玩家相互对决,在一系列的牌局中测试对方的策略,改善自己的战术,并且疯狂地唬牌。在今年一月份,Libratus完胜四个对手,赢取了1776250美元的模拟赌金,打败了世界上最出色的扑克玩家。人类玩家Dong Kim曾对《连线》杂志说: “今天之前我都没有认识到它那么强。我觉得我好像在和一个作弊的人打牌,好像它能看到我的牌一样。我不是在指控它作弊,它就是那么厉害。”
德州扑克,其实是一种非完全信息的博弈,它的难度显著高于完全信息博弈。Tuomas Sandholm教授团队研发的Libratus在一个完全有利于人类棋手的场景设计下,依然以压倒性的优势,战胜了人类最顶尖的选手。Tuomas Sandholm教授将海量的博弈场景简化、抽象,寻找一个近似的纳什均衡最终来实现一个基于博弈论的决策。
Libratus包括了三个模块,分别是赛前的游戏规则抽取和纳什均衡近似,赛中用到的残局解算(Endgame Solving)以及持续自我强化。
博弈论中的纳什均衡主要指博弈双方的理性参与者都不会有单独改变策略的冲动,而该系统中采用纳什均衡,使得不论对手用什么样的策略,都不能取胜。
在前期寻求纳什均衡的过程中,采用了CFR算法(Counterfactual Regret Minimization,反事实遗憾最小化)的强化学习。这是一个源自心理学的算法,即“如果当初做了另外一种选择就好了”的反向思考方式。这种强调试错的方法可以让机器自己和自己玩大量的游戏。
通过CFR算法,Tuomas Sandholm向Libratus描述游戏规则后,耗时几个月,随机训练100万亿手牌,Libratus最终达到了足以挑战最优秀人类选手的水平,还开发出了一些人类没有的玩法。
而在残局解算中,Libratus的改进算法包括考虑对方所犯下的错误,尽早开始残局解算,对手每出一招即实时展开残局解算(Nested Endgame Solving)等等。
而在持续自我强化模块,Libratus在比赛的每晚不是分析对手的问题,而是总结自己当天的主要败笔。这就好像人类每天总结自己的弱点,再进行针对性的弥补。这样自己的弱点越来越少,给对手的可乘之机也越来越少。这种主动防守型的打法,最坏的结果就是双方打成平手,所谓纳什均衡追求的就是一种平衡。
打开非完美信息世界之门
上海财经大学交叉科学研究院院长、杉数科技首席科学家葛冬冬(左),不列颠哥伦比亚大学(UBC)Sauder商学院助理教授丁弋川(右)
Libratus是博弈AI的最新成果,是该领域达到的最新高度。但这并不意味着Libratus就已经完美。Libratus针对的是一对一比赛的场景,主要是纳什均衡即针对一对一对场景,在多人博弈场景下纳什均衡就不太适用。此外,Libratus针对的是每场重置筹码的比赛,而人类不重置筹码的比赛也未必适用。
尽管Libratus还有局限性,但Libratus至少打开非完美信息世界的大门。
目前Libratus已经取得的成就,可以通过机器自动化的方式,在很多商业场景中帮助人类做出战略决策和最优化策略选择。这就是人工智能梦寐以求的决策自动化。
Tuomas Sandholm表示,如果机器能够替代人类做出战略决策,那么结合深度学习,就可以形成自动化的学习-决策-再学习-再决策的闭环,这才是完整的人工智能算法。
上海财经大学教授、奥数金牌、杉数科技科学家何斯迈
“在现在的数据化时代,要对数据进行量化管理。一个实际调度的管理问题,决策变量就有上百万个,而且解决的实时性非常高,必须在秒级别把这个问题解决了。我们为了调度问题,专门设计一个算法,要求在一秒内能解决,像定价、库存等决策问题,同时还需要考虑顾客行为。顾客行为就得去学,根据数据,去仔细研究客户到底是怎么去做决策,不一定按照书本上的行为模型去做,往往需要结合经济学、行为性的知识去预测行为。”上海财经大学教授何斯迈说,“用Tuomas Sandholm教授这些框架,用均衡的想法,在商业活动中去争取到更大的利润。”
何斯迈介绍了杉数科技在新零售行业,特别是收益和库存管理中应用博弈论和人工智能的例子。
很多国内企业开始进入数字化和数据化时代,基于数据积累要开始量化管理,需要用到博弈AI算法。比如根据友商价格、顾客价格敏感度、顾客心理价位、季节性、产品替代及互补性、促销及拉升效应等多种量价关系要素来进行动态博弈,解决方案包括使用网络爬虫及机器学习来捕捉友商实际价格及分析友商价格策略,分析产品市场定位(主导者/跟随者/竞争者),再寻找远期利益与近期利益的动态平衡点。
何斯迈表示,现在商业企业的规模普遍很大,在一个调度管理问题的实例中,可能涉及的决策变量就有上百万个,而且对实时性要求非常高,必须在秒级别完成上百万个决策变量的问题求解。何斯迈一直在杉数科技进行这方面的工作。
葛冬冬也强调,实际上,对整数规划来说,哪怕只有几百个变量,求解都非常困难,极端情况下最好的商业软件也需要很长时间才能计算出来。然而在杉数科技等的推动下,特定类型问题中百万级变量的整数规划问题求解,可以在1秒钟完成
杉数这方面的进展,是与斯坦福大学的叶荫宇教授、乔治亚理工的蓝光辉教授、上海财经大学的“Leaves”优化实验室长期艰苦合作,才能实现特定场景下秒级百万规模变量的最优化求解。
Libratus这样成熟的博弈AI算法并没有行业领域的应用限制,再加上超大规模最优化问题秒级求解的工程化能力,就能在战略定价、产品组合优化、金融、商业谈判、业务战略、下一代安全、拍卖、医疗健康等广泛的非完美信息场景中,实现机器决策+机器学习的完整人工智能体系。这将对商业、经济和整个社会的发展带来深远影响。
博弈AI大时代崛起
清华大学交叉信息研究院青年千人助理教授、博士生导师、计算经济学研究室主任唐平中
从囚徒困境到智猪博弈再到美女的硬币,博弈论一再说明一个道理,就是人类的思维不同于机器。特别由于人类的社会化属性,但凡有两个人以上的地方就充满着博弈的思想。因为有人的地方就有竞争,有竞争就有博弈。
唐平中表示,博弈论在西方已经有近90年的历史,而在中国则是于近5年得到了广泛的关注和应用。从2009年开始的互联网广告拍卖设计算法,使博弈论在国内经济界得到了重视,如今国内工业界对博弈AI的算法也有大量的需求。究其原因,是人们在研究人工智能的时候,发现仅处理针对机器的算法远不能满足实际商业的需求。现代商业中往往是“人+机器”的复杂场景,而博弈论恰好是针对人类的智能算法。
葛冬冬介绍说,在杉数科技从事项目算法开发与实施的过程,发现很多现实中的商业问题不仅仅需要考虑最优化,很多时候还需要考虑到人类的行为,这些人类行为将给问题的解决带来额外的难度。
比如在考虑电商定价的时候,不仅要根据以前的历史价格来计算未来的最优价格,还要考虑到顾客和竞争对手的反应。当价格低的时候,电商顾客会根据情况囤积自己的小库存,便宜就多买、不便宜就少买或不买,同时竞争对手也会实时比价跟随定价。因此,在新零售等场景中,不仅仅是数据驱动,还要考虑复杂情况下的顾客和竞争对手博弈等,这就应用了很多AI技巧。
博弈AI的崛起,正是复杂商业需求驱动的结果。
责任编辑:朱虹瑾