智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 1428|回复: 39

从人工智能“冷扑大师”跟大家聊聊GTO

[复制链接]
落寞书生 发表于 2019-3-29 18:16:44 | 显示全部楼层 |阅读模式
先来说说冷扑大师的背景,很多关注德州扑克的朋友们应该都比较了解,下面是一段节选的新闻:

“德州扑克人机大战最终结果是AI冷扑大师Libratus碾压了国内6位顶级高手,在5天每天10小时的战斗中,AI冷扑大师Libratus与国内6位顶级高手共计打了36000手牌,冷扑大师共计赢得了792327记分牌获得最终胜利,也顺便带走了200万人民币的奖励。


792327记分牌看起来很多是不是?其实记分牌只是一个记分用的数据,没有任何实际意义,因为这次比赛采用的形式是1VS1单挑,盲注结构为50/100。只要调整盲注结构,最终记分牌数会随之变化,比如将盲注结构调整为1/2,那么最终冷扑大师将赢得15846.54记分牌,这样的数据看起来就不那么吸引眼球了。


在德州扑克里MTT,SNG等比赛型玩家最终所看的数据是投资回报率(ROI),假如你在Pokerstars上打了一年的MTT,总计花掉10000美金的报名费,最终获得11500美金的总奖金,那么你打德州扑克比赛的投资回报率为15%,当然这只是假如,国内各路MTT大神在Pokerstars上的投资回报率还没见过10%以上的;现金玩家看中的是每一百手牌最终盈利多少个大盲BB/100,当你持续每一百手牌盈利10个大盲以上,那你已经是战胜了这个级别,完全可以考虑升级了。


冷扑大师Libratus在50/100的盲注结构中打了36000手牌,最终盈利792327记分牌,我们可以算出冷扑大师Libratus每一百手牌的盈利为22个大盲,一般来说10BB/100就是碾压了,22BB/100已经是神一样的存在了,完全无法战胜了。大家也不要因此觉得国内选手比较弱或是否能够代表国内顶尖德州扑克的水平,在前不久美国的AI大战中,美国的4位顶尖高手,最终结果是每一百手牌输给AI14个大盲14BB/100,当面对的是世界级顶级HU高手时,AI同样是碾压一样的存在。


当我们在谈论德州扑克的时候很多情况下都会谈到马脚,眼神,微表情,思维层级,心理上的博弈,手部的动作,呼吸的节奏,喉结的蠕动,甚至是脖子筋脉跳动的频率等等;我们在现场比赛中总能遇到戴着帽子,口罩,墨镜,耳机,围脖把自己包裹的严严实实的选手,但在AI面前这些全都不重要,AI用数学,算法,计算,概率,策略就已经完胜人类了。


AI在德州扑克领域中战胜了人类之后只会把人类越抛越远,人类已经没有赶超的可能,AI全面超越人类或许不再是传说。”


冷扑大师正是基于GTO开发,从整个过程来看,目前冷扑大师只是一个初级版本。人类玩家在面对冷扑大师的时候,只有招架之功,毫无还手之力。
中国龙之队的六位玩家在国内的话应该属于非常不错的水平了,但是他们在现金单挑方面还属于业余玩家。从整个过程来看,他们犯的很多错误都曾经在我们身上出现过,1.不管是翻牌前还是翻牌后,并没有构建一个平衡的范围。2.打牌缺少逻辑性,很多时候你做出的一个动作都不知道是为什么。3.缺少整体性,对筹码以及每条街的打法没有一个大局观。4.会犯很多尝试性的错误,比如强牌尽可能造大底池,中等牌,要进行控池等。
而冷扑大师在这几方面表现就值得大家好好去学习了。冷扑大师初级版本只是采用了不败策略,我们知道真正最大收益的策略是剥削策略,对人类并没有做出很大的调整,只是将人类看做自己而已。人类玩家的诈唬频率远远低于纳什均衡所需要的频率的,这一点是冷扑大师并没有写进程序中的。人类玩家在河牌进行超底池下注的时候,诈唬的频率是超不过20%的。

冷扑大师与国外4位职业单挑玩家的牌局视频有能提供的朋友,也非常希望能够发给我。

接下来,我就通过对战的牌局慢慢聊起。



 楼主| 落寞书生 发表于 2019-3-29 22:53:30 | 显示全部楼层
本帖最后由 落寞书生 于 2019-3-29 22:55 编辑

1#
JTo 面对一个标准的加注范围,胜率50%左右。翻牌圈KKQ  从 K来说吧,从K2-KQ都是一个标准的跟注范围 KT KJKQ 部分会出现在3bet 的范围里,从加注者到跟注者,K是一个最高频率击中trips 的牌。A的话,AK AQ AJ 大部分都是在3bet的范围里,而不是在跟注的范围里。所以trips A的频率还没有那么高。从频率来看,大体是这样的排序K ,Q,A,J,T,9,8,7,6,5,4,3,2
从冷扑大师来说,JTo过牌跟注看上去比较被动。加注的话,我们的牌变成了半诈唬,跟对手演Kx或者QX ,而且能被我们诈唬走的牌都是哪些呢?基本上都是落后我们的牌!这里Jhigh 面对对手的整个范围,是比较领先的!我们加注,对手Ahigh 这种牌很可能会选择跟注缠打我们一条街,而一些落后我们的纯空气垃圾牌,如 87这样的牌都可能会凌空缠打我们。我们转牌如果不击中顺子,继续进攻对对手的范围并不能很好的确定。而一旦转入防守,我们将变得非常被动,很可能引诱出对手缠打后的疯狂诈唬。从我们的角度来看,对手这里的持续下注范围是非常宽的,主要是牌面非常适合持续下注,我们如果是98这样以下的牌是很难再没有位置的情况下继续下去。
综上,我们这里跟注是一个非常平衡的GTO打法。范围:Qx Kx 以及弱的成手对,AX,顺子听牌以及偶尔JX牌纯空气没位置的缠打。而且翻牌圈的过牌跟注,并不影响在转牌进行过牌加注等更激进的打法。

转牌的一张A让冷扑大师成了顺子,这里是否应该反主动下注?如果进行反主动下注,我们基本就代表了 AX KX 以及顺子,我们下注的范围表现地太强,让对手很可能都弃掉QX 。所以这里过牌应该是更好的打法,对手很可能借助这张A 进行转牌和河牌的连续诈唬。过牌让对手很弱的范围有一定的诈唬空间,对手这里击中A的概率可能不是很高,很多玩家喜欢Ax在ABB面上进行过牌,希望打到摊牌。
转牌上,hero没有继续的下注。这里也是合乎道理的,因为QX也是很难在转牌出现一张A就被诈唬走的。对手过牌,范围里也有很少一部分的Ax QX进行控池,但是绝大部分是选择放弃的牌。
河牌一张J的出现非常有意思,这里形成了单张成顺,冷扑大师继续过牌,从转牌的分析上不难理解,对手基本上大部分范围是要放弃的。而J的出现单张成顺,给了对手一个重新诈唬的机会。如果我们想下注,可以想一下,对手会有什么范围跟注呢?基本上只有Ax了,而这个范围在对手的范围里是极低的,从这个角度思考一下,这里过牌就是非常显而易见的了。即使对手Ax ,河牌面对我们过牌,也是很可能进行一个薄的价值下注,希望我们的QX牌进行支付。

河牌的过牌跟注成功抓到了对手的空气诈唬。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
pongba 发表于 2019-3-30 05:38:09 | 显示全部楼层
机器最强的地方在于它总是绝对清楚自己的range,我发现我们实战经常搞不清自己在不同spot下的range是什么,如果基础假设就错了,就很难作出正确的决定了。
花鼻子 发表于 2019-3-30 07:10:30 | 显示全部楼层
先顶后看。
sd105215 发表于 2019-3-30 09:45:08 来自手机 | 显示全部楼层
前排学习
 楼主| 落寞书生 发表于 2019-3-30 12:08:25 | 显示全部楼层
pongba 发表于 2019-3-30 05:38
机器最强的地方在于它总是绝对清楚自己的range,我发现我们实战经常搞不清自己在不同spot下的range是什么, ...

在德州扑克中有很多重要并且及其复杂的概念,range就是其一。很多时候我们有一个错误的理念就是喜欢单一的去研究range,range在德州扑克中是一个整体中不可缺少的一部分,离开整体去单独研究没有任何的意义,也就是说range与诸多因素有关,如位置,筹码量,对手,牌桌动态,牌面结构……等等。任何一个变量的变化都会影响range的变化。所以为什么说复杂就在于此。但是如果你不能深刻理解对手和自己的range,你所有的行动就像是你在闭着眼睛走路一样。我的建议就是不断地去实战,最重要的就是实战后总结,不懂的地方跟朋友讨论,或者拿到论坛一起讨论学习,只有这样你才能不断提高对range的理解,认识和应用。 目前阶段,如果你只是去看一些书籍或者视频,是很难提高的。实战中去学习,实战中去总结!
 楼主| 落寞书生 发表于 2019-3-30 14:25:44 | 显示全部楼层
2#Flop同花听牌过牌同样是一种GTO平衡性的打法你不可能每次在Flop进行持续下注,同样你也不能每次都用同花听牌进行持续下注,否则当你过牌的时候,你的范围里是不平衡的。一旦出现同花面,对手可能会进行非常多的诈唬。那么什么样的情形下适合过牌?这种情况非常多见,关键是你要从逻辑上进行分析和理解,同时对未来的两条街做好计划和打算。下面就是其一


在A98ss这样的牌面上,我们可以通过pokerstove来看一下,基本上有关系的牌面40% +而且大部分都是在跟注的70%左右的范围里。30%的情况下击中了对子,15%左右击中了听花或者听顺。简而言之,这里进行持续下注即时盈利不高,只能靠后面击中同花的EP。冷扑大师经过计算,这里过牌隐藏同花听牌是一个更有利的打法。背后的逻辑就是,对手与牌面有关系的概率非常高,同时很难想象到我们是一手同花听牌,一旦击中,可以利用一个超底池的下注,从逻辑背离上让对手跟注抓诈唬。



转牌形成了同花,这里过牌令人匪夷所思,这里下注从逻辑上是很好理解的。我们隐藏了花,对手过牌当然对手AX的几率变得很低,但是8X 9X 和手里一张大的红桃如Kh或者Qh 同样会跟注。在对手眼里冷扑大师这里如果下注,大部分应该是在手里只有一张红桃,所以一个底池的下注是很轻松就能跟注的。对手AX降低的情况下,这里继续隐藏牌力希望对手抓诈唬,但是初始的底池太小,河牌的超底池下注数量也是有限,关键是这里并不是很大的花。一旦河牌出现单张成花,8X和9x的价值可能都拿不到了。
冷扑大师的转牌过牌应该是从两方面来考虑,第一对手的成手牌的几率是很低的,如AX 是很可能在转牌要进行下注,同时9x也是有很大几率下注保护自己的手牌。第二点,对手有一张大同花的几率也是比较低的,一部分如Kh X QhX 都很可能在转牌直接下注半诈唬。从这两方面看,冷扑大师的策略基本上就是认定转牌对手的手牌击中率太低,而听牌也不多,所以希望在河牌给对手一个出其不意的大注,也希望在河牌留给对手一些诈唬的空间。

河牌进行一个接近5倍的底池加注,数字上看没有超过1000,从心理上对手是更容易跟注。

从hero的角度,转牌应该大部分的时候进行下注。T9在这里领先的概率至少70%,当然过牌也无可厚非,希望对手一些听花进行半诈唬。这里应该70%的时候进行下注,30%的时候进行过牌。在河牌,面对冷扑大师的加注,跟注看上去比较合理,但是从长期EV上来看还是略负。从牌面结构上,我们下注是希望对手如弱成手牌 44 Khigh 或者Qhigh进行跟注的  冷扑大师这里应该也只是跟注弱的成手牌,而不是转成诈唬。那么我们能抓的诈唬牌是什么呢?比较合理的如Jx J是红桃的。而冷扑大师的加注并不能将空气牌合理的转成一手强牌,所以诈唬的几率是比较低的。这就是一开始说的,看上去是一个挺标准的抓诈唬,但是从长期来看,还是一个比较略负EV的跟注。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
rahj 发表于 2019-3-30 17:25:15 | 显示全部楼层
老版本是有考虑剥削的,并非单纯的GTO,这点在论文以及Kim的访谈中有体现

这个玩意叫“safe exploitation”
也就是我之前认为这个比赛不公平的主要因素,等于Lib开了hud而人类没有,对于现金单挑能力差的玩家来说简直要了老命,漏洞完全暴露
shirouandmahoro 发表于 2019-3-30 20:43:51 | 显示全部楼层
但我覺得1V1並不理想,6人應該更能看出到底是怎樣變化和應對的
 楼主| 落寞书生 发表于 2019-3-31 17:17:02 | 显示全部楼层
3#被动打法可以进退自如,学会整体范围间的互相保护。


98s是一手在深筹码对决中非常好的起手牌,进行3bet很容易打出一个大的底池,大部分的牌面都或多或少有些关联,很容易产生战斗。选择4倍的3bet的数量是一个深筹码的量,翻牌后的spr  6.6
翻牌圈K82是一个相当干燥的牌面,只有一个同花的潜在听牌,而我们阻隔了一张8,所以这里对手范围里成牌只有Kx 和少部分的8x 以及听花是比较合理的继续的牌型。当然对手面对我们持续下注也可能用AJ AT A9这样的A high后者更差的牌进行缠打,所以在这个底池中一旦我们进行持续下注被对手跟注,我们在转牌将会面对进退两难的局面,对手跟注的范围中比我们差的牌,在转牌和河牌都是很有机会诈唬掉我们领先的牌。所以冷扑大师在这里转为被动的防守,看似是消极的动作,其实是一种更具有弹性的打法。
这么干燥的牌面上,我们选择过牌,对手是很难界定我们是否有一手强的成手牌还是弱的牌,还是选择放弃。对手下注,我们过牌跟注,我们的范围依然有Kx 99-TT的对子,以及8x这样的成手牌范围,既有强的可以防守,又能让弱的成手牌进行控池,范围之间相互保护。
对手也选择过牌,这里对手的范围里大部分是miss掉这个牌面的。有些时候,会用Kx也选择过牌,一方面控池,一方面给对手设下埋伏。从这手牌来看,即使对手有K过牌,其实正好随了冷扑大师的意愿。98s由于选择了过牌防守型打法,至少会跟注两条街的下注,而Kx 选择过牌就给了98 更多反超的机会。
当然对手选择过牌,98的领先概率是要比对手下注时要高的。对手一旦下注,其中必然有较多Kx以及同花听牌,即使里面混合了很多空气牌,这个范围面对98的EP还是非常不错的。
转牌的一张T,对98来说是比较差的一张牌了。其次还有J Q A都是比较差的牌。这里98没有任何理由进行下注,下注只能将我们的成手牌转成了诈唬。同时冷扑大师转牌的继续过牌,也大大降低了强牌的可能性。翻牌圈的KX以及更强的牌很可能选择过牌设陷阱。但是在转牌牌面开始变得比较湿,尤其是对对手的3bet跟注范围是一张很有利的牌时,继续进行过牌埋伏的可能性降低了很多。同时,这里冷扑大师如果转牌的下注很难被对手认定是很强的范围,AJ AQ QJ Q9 等大量这样的顺子听牌都可能在转牌进行攻击,这也佐证了强牌在转牌继续过牌逻辑上有些背离。也就是说对手击中T,很可能跟注你的转牌,河牌继续跟注抓你诈唬的。
回到hero,这里也选择了过牌,也基本上代表与强牌无缘了,他的上限基本上就是TX
河牌一张T对98是一张非常好的牌了,从整个牌局来看,这里领先的概率80%+。这里过牌显然不好,因为河牌一张T的出现,是很难引起对手诈唬的欲望,这里对手也知道,很容易A high甚至 Q high跟注的。答案就显而易见了,应该进行一个价值下注。
从翻牌前到转牌的分析来看,hero击中一手强牌的几率是很低的,我们只能希望对手在河牌的跟注范围是A high Qhigh 以及33-77对子。这冷扑大师经过分析计算,下注的量是1/4pot.这个下注可以让对手最高频率的跟注,获得最大的EV。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2019-4-22 13:03 , Processed in 0.107481 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部