研究人员称,程序用“逼近法”打败了人类对手,“逼近法”与直觉有点相似。密歇根大学游戏理论与AI教授迈克尔·韦尔曼(Michael Wellman)认为:“如果真是这样,意味着游戏AI取得了明显进步。首先,它是一个里程碑,AI在游戏中打败了扑克职业玩家。其次,它将一些新创意结合在一起,开创了激动人心的新方法,我们可以用这种方法应付信息不完全的游戏。”
本周晚些时候,匹兹堡赌场将会举办扑克锦标赛,到时几名世界级扑克玩家将会与卡内基梅隆大学开发的程序对决。卡内基梅隆大学计算机教授图奥马斯·桑德赫尔(Tuomas Sandholm)是程序的主要开发者,他说参赛的选手比之前测试时的选手强很多,在20多天的比赛中,玩家将会打出12万手扑克,研究人员可以统计数据,为开发工作提供帮助。一直以来,人们认为扑克对于电脑来说过于复杂,锦标赛也许可以向我们证明AI已经可以在扑克上超越人类了。
扑克软件DeepStack曾经打败过职业玩家,它是加拿大阿尔伯塔大学计算机教授迈克尔·保林(Michael Bowling)领导开发的,查尔斯特大学和捷克理工大学的研究人员也参与了研发。网上刊发了一份研究报告,研究人员在报告中表示,DeepStack与几名人类玩家比赛,打了4.5万手扑克,轻松获胜。
人类也曾与AI在其它游戏中对决,相比而言扑克更加复杂。扑克不确定因素很多,比如对手可能会欺骗,在现实世界中到处都是欺骗,AI还不懂得怎样欺骗。扑克玩家看不到对手的牌,但在西洋棋、国际象棋和围棋中,大家可以看清对方的棋子。今年年初时,Alphabet子公司DeepMind开发的AI程序打败了李世石,他是韩国知名职业围棋高手。
对于机器来说,不限注德州扑克太难了,每一手牌都有10的160次方种(10的后面跟160个0)可能。DeepStack通过自己与自己打扑克不断学习。每打完一局,系统就会修改优化策略,让技能更上层楼。由于不限注扑克很复杂,系统通过玩限注扑克来提高技巧。为了处理复杂性问题,研究人员使用了快速逼近技术,他们将之前的扑克比赛资料输入深度学习算法,不断优化精炼。
密歇根大学韦尔曼认为,扑克是一种复杂的游戏,采用新技术之后,系统碰到各种情况都可以有效应对,这是新的突破;以前要绘制整个树,将各种可能性找出来。
研究人员将DeepStack的逼近技术与人类玩家的直觉类比,当对手欺骗或者拿到一手可以获胜的牌时,人类会用直觉判断,比如根据对手的语言来判断,机器不同,它根据对手的下注模式来判断。研究人员称:“我们可以将这种估计看成是DeepStack的直觉。”
通过观察扑克玩家在多次对决中赢得的金额,系统可以评估玩家的表现,而不是根据桌面上的下注额判断。与优秀的职业选手相比,DeepStack的胜率高了大约9倍。
2015年,保林与阿尔伯塔大学的同事找到了解决方案,他们开发的扑克机器可以玩限注德州扑克,表现很完美。参加匹兹堡锦标赛的机器人名叫“Libratus”,它是图奥马斯·桑德赫尔(Tuomas Sandholm)与学生诺姆·布朗(Noam Brown)合作开发的,Libratus用匹兹堡超级计算中心的强大硬件运行。