"平衡""偏离""GTO""剥削"到底是啥？

benny_xmy · 发表于 2017-3-31 06:01:11

本帖最后由 benny_xmy 于 2017-3-31 10:11 编辑

发了几篇帖子，少有回复，感觉有点遗憾，感觉最有价值的回复就是“afa”的那一条了。
在这里引用一下“sky1021”的一条回复：

“打牌至今从不看这些只靠人工感应；
九人桌不用太多花俏重策略；
你就观察桌上哪一个偏离了策略标记下针对干他就行”

第一句中的“人工感应”很有趣=v=我也觉得打牌很需要“灵性”；第二句我也很赞同：观察过大家打九人桌ring game调整都很有限，但并不是很理解其指的“策略”是什么；第三句在我看到的帖子里出现的频率太高了：“偏离了GTO”、“对手打法有leak”就可以“剥削策略针对”。我搞不懂了，什么叫GTO？对手的leak指的是什么？你是怎么观测到对手“偏离了GTO”“对手的leak”的？如果你都不能回答“什么是GTO”那凭什么你说你能“观测到偏离了GTO”？反正我从来没见过说这类话的人详细阐述过他将这句话应用到他举的牌例过，每次都是仅仅提出这个“GTO偏离”这个广泛陈述。不管你信不信，反正我不信=v=再说leak，查到一个例子：

There is a raise from early position, and a re-raise from middle position. Both players are tight and aggressive. The action gets around to you on the button, and you look down at pocket Twos.

Now, there is no chance that you are ahead in the hand at this point, and you have already seen a raise and a re-raise in front of you. Despite all of that, you decide to call, hoping that you hit a set on the flop.

This is a major "leak", as there is no way that you should be calling here.

是不是大概可以理解：“你这个手牌很弱，不该call应该fold，你call了所以你这个option打错了，这个是你的leak”；那么问题来了：（1）怎么证明你的分析是对的？这个“对错”绝对唯一么？举个可能不恰当的例子，如果你承认每个人看一手牌的思考是不一样的，A看到这手牌觉得对手在出剪刀，B看到这手牌觉得对手在出石头，那到底是剪刀对还是石头对？因为这决定了我出石头还是出布来“针对剥削策略打你”。是不是可能你眼里的“leak”是别人眼里的“edge”？（2）你是怎么观测到对手的“leak”的？你并没有上帝视角，你是否只能通过“摊牌”来看对手是不是有你先前推测的“leak”？如果你的回答是“我通过数据和其他信息，而并非单纯手牌信息”的话，怎么证明你的推测是对的？（3）我承认有一些很基本大家都公认的“leak”，举个例子，绝对的Calling Station，只会call和fold。这个是被你通过数据“VPIP”、“PFR”和“AF(q)”和一些river摊牌观测到从而得出的结论。那你的“针对剥削策略”是什么？是憋牌和对手拼击中，比如flop击中了TPTK猛打三条街因为你知道对手的支付能力很强？这能不能称之为你的“edge”？（TPTK over play似乎被一群打的“较好”的人认为是一个“leak”=v=）你的策略能赢他多少bb/100手？你有没有和一个对手做过实验模拟或者通过证明？

你可能发现问题所在了，就拿上段（3）中的例子“TPTK over play似乎被一群打的“较好”的人认为是一个“leak””，这句话是不完整的，我猜应该这么说：“把“憋牌拼击中；比如flop击中了TPTK猛打”说成是众多策略中的一种；“憋牌拼击中；比如flop击中了TPTK猛打”能剥削Calling Station，但“憋牌拼击中；比如flop击中了TPTK猛打”是被另一群不是Calling Station的pro们剥削的。”也就是说，我猜，任何一个“策略”都能剥削和被剥削，也就是只有“相对的”“leak”和“edge”。

你可能会说，“憋牌拼击中；比如flop击中了TPTK猛打”这话太笼统了，不能称之为一种“策略”，我深表赞同。如果你承认你的每个option都能解说出具体的理由来证明你这个option的选择是对的，那我觉得就完美了。也就是说“每个option都能得出根据现有信息得到的一种“策略””，即每个option的决定选择代表一个“策略”。判断标准应该就是当前ev最大化，也就是“剥削最大化”，在先前的一篇帖子里我举了双方的ev都为﹢的情况，评论的回答直至“死钱”，至于“沉没成本”和ev的具体分析我觉可以以后讨论，但这个option选择的判断标准应该是ev分析，我不懂，因为我找不到其他的分析能取代之，求教练指导@_@。

因为你和对手每手牌交锋是打的一个line，你可能觉得option和“策略”很少，但如果你把你和对手所有可能的line展开成一个决策树的话，option和“策略”就多的惊人了。我们不妨先看看，双方都打明牌，那这个过程是怎么样的？随便举个例子，比如一个人拿着AKs是大盲，一个人拿着77是小盲，双方明牌打，每个人都用“最大化剥削策略”打，整个line应该是怎么样的？你会发现无从下手：此时AKs和77的胜率是48%打52%，那77怎么打才是“最大化剥削”的策略？Raise到一个size让AKs能有合适的赔率call？Allin？你会发现根本无从下手，没办法从“fold、call、“min raise -> Allin”等间隔采样得到有限的raise size”里选择一个option说我打的是最优的。除非打到了river，一家100%一家0%，这样是有最优解的：“100%：除了fold任意option；0%：fold” 哈哈，因为option是有限的，那应该是存在最优解的？但我连一个“打明牌”的例子都解不了“最优策略”，我还想战胜所谓的“不完整信息的博弈”的“最优策略”去应用去赚钱，应该是在做梦吧。

所以，以我现有的能力，我只能玩玩推推乐，也就是Allin or fold。在推推乐的过程中我能很容易计算“最大化ev”的概念。举个简单的例子：

不妨设A和B在打cash game（ev=cev)，就只有10个BB，不妨设A一直是大盲，B一直是小盲（当A是小盲B是大盲的时候双方策略互换即可，对称的），option选择就只有Allin or fold。A和B在打牌前先通了气，承诺了：B选择用前58.3%的牌Allin，A选择用前36.6%的牌call。

还没发牌的时候，B开始思考了：A说他用前36.6%的牌会call我的Allin，那我拿前%几的牌去推才能让我最大化剥削呢？不妨设我用前p%的牌Allin，那我的弃牌率就是(1-p%)，收益是-0.5BB，我用前p%的牌打他的前36.6%的牌的胜率可以通过PokerStove计算得出：q%胜，此时的收益是+10BB，(1-q%)输掉，收益是-10BB；他63.4%会弃牌，这个时候我的收益是+1BB；（收益可能会根据不同理论对“死钱”的沉默成本的分析略有区别），那我就有一个总体收益的公式：

F(p,q) = p*(+1*63.4%+(10*q - 10*(1-q))*36.6%) - 0.5*(1-p)

然后q从0到1做一下图（可以详见我在“平衡”帖子里发的图，参数不一样但可以看下大概形状），这个参数我没做过，但思路是一样的。而其作者发现得出的Fmax(p*,q*)的时候p* = 58.3%，也就是说这个时候B的最优“策略”是用前58.3%的牌去推。A也做了同样的思考，算出A的最优“策略”是用36.6%的牌去call。可以想象，一个长期过程中，A和B的策略稳定在一种最优解上了，也就是达到了“平衡”。整个A和B的思考过程都是想“最大化剥削”对手，但每次得到的解都是一样的。于是我理解其达到了“GTO”，达到了“平衡”。这也就解释了很常见的一句话：“GTO不会被剥削”，因为我猜“GTO”的“剥削策略”就是“GTO”本身。（有趣的是，虽然B和A都不能互相被剥削，但ev虽然很接近0但确实有正负：±0.05，BB是+0.05\SB是-0.05，我猜这就是我们常说的“位置”的价值所在？）

你或许会问：这个例子里的“GTO”“平衡”是怎么找到的？怎么观测得到的？我也不晓得，但确实证明了这是存在的。你或许又会问，能不能通过B和A的有限次重复博弈之后得到这个“GTO”“平衡点”？我也搞不懂。我发现“GTO”是一个互相的过程，也就是说一方达到了“GTO”，另一方才“达到GTO”，而不是就中文翻译“最优博弈理论”一样，觉得是一个无敌的策略，只要找到了“GTO”，无论对手怎么打，我都能保证盈利最多。其实不然，如果有一方“偏离”了“GTO”，那另一方的“最大化剥削策略”就不是“GTO”了。举个例子，如果“B的Allin = 100%”，而你作为A仍以“GTO”也就是36.6%的range进行call的话，你可以算一下，“GTO”在这个情况就不是最优解了，可能是输钱的。我在前一篇谈“平衡”的帖子里做过一个实验：当一方发生“偏离”，例子讲的是“B的Allin = 100%”，之后，每次计算“最大化剥削策略”，发现最后产生了“石头剪刀布”的情况，进入了一个循环。我猜这也是“平衡”的一种存在形式，是一种动态“平衡”，但我不懂博弈论，也说不好，希望有教练能指导。

以上这个例子是Allin or fold推推乐，我猜完全也可以应用到经常听到的“在river上value bet和bluff的完美比例”云云，得到的结果我猜是一样的：只有双方相互的比例都是完美的，才是“GTO”；而不是“一方的比例完美一方的比例不完美，不完美的一方总是输钱的”。所以我猜“GTO”就是一个“平衡”点的现象，这个不管双方怎么调整，怎么“最大化剥削”都调整不出这个点；所以在实际情况下你用“GTO”未必是件好事，你可能遇到很鱼的娱乐玩家，这个时候“GTO”是被娱乐玩家剥削的，哈哈=v=（详见上段中关于“一方偏离一方不偏离”的实验结果）

如果你能有耐心看到这里，我觉你应该能体会我心中的疑惑了：打了那么多手牌那么多盘SNG了，但不晓得自己打的是个啥？不晓得自己为啥输钱？不晓得自己赢钱赢在哪里？或许我自我陶醉在中牌的喜悦，没牌的失落；被Bad Beat的愤怒，Bad Beat别人的快感（如果你经常被BB而不是BB别人，冷静的想一下，这是不是说明你打的比别人好呢？或者说长期和这个人打你是赚钱的呢？所以别轻易tilt哈哈）；同时收货冠军title和prize的优越；bluff过程中的刺激，成功后的释然；云云。如果你觉得我也说出了你心中的疑惑，那就听我一句劝：放弃Poker吧。思考分析了那么多手牌真的觉得自己提高了么？打了那么多手牌真的有新的体会了么？依我看，不过是在海量的样本亲自测试里迷失了自己罢了，哈哈=v=

其实我还有很多疑惑，只是一下子不大能组织语言来表达，我从小语文没及格哈哈@_@我应该会一篇一篇写下来吧，如果让你觉得厌烦了我深表歉意，但我真的很希望你能和我一起来讨论，指出我在分析中的错误，并写出你的分析证明。我觉得只有这样大家才能共同进步吧=v=

lililili11 · 发表于 2017-3-31 07:24:26

本帖最后由 lililili11 于 2017-3-31 07:25 编辑

看你的帖子真是一种享受。眼看着我思考好几年才理清楚的的问题，一个个这么容易就被你戳破，或者快要戳破，那种感觉真的很奇妙。

也许这是一种“不孤独”的感受吧。

捉个虫，一个人推100，另一个拿36跟，这时候36不是最优解，但不会是输钱的。我想你的意思是不最大化ev就等同于输钱，但毕竟表达不准确。

benny_xmy · 发表于 2017-3-31 07:40:51

本帖最后由 benny_xmy 于 2017-3-31 10:12 编辑

lililili11 发表于 2017-3-31 07:24
看你的帖子真是一种享受。眼看着我思考好几年才理清楚的的问题，一个个这么容易就被你戳破，或者快要戳破， ...

多谢回复！
你说的很对的，我讲错了。我混淆了“最大化剥削”和“输赢”（正负）的概念了=v=太懂我了！事实上就1楼帖子里的例子来说，B和A都没有受到“剥削”，也没能成功“剥削”对方，但确实有±ev的输赢。很容易理解，这个游戏规则的设置确实是对“有位置的人”有利；所以“剥削”应该等价于“最优”“最值”，而并不等价于最后objective function的正负（输赢）。
不过我在上帖做过类似的实验，只是参数不同，参数差的不多，虽然没有比较意义，但我觉36%或许是太小了，如下图：

我没做过1楼帖子里的图的具体数据（1楼那个图是RunItOnce上有人做的），或许可以做一下。

而且这个过程，和码量也有关系，不同的码量所得到的“GTO”应该是不同的，也就是说你囊括了更多的信息的话，“GTO”是会受影响的，但存在性应该是不收影响的？影响因素是不是有限，“GTO”是否唯一，云云，都是值得研究的问题哈哈=v=

心难在焉 · 发表于 2017-3-31 09:10:59

并没觉得烦啊，回答比较少是因为想回答你这个问题需要海量的计算，不过计算这种东西并不是所有人都擅长

lililili11 · 发表于 2017-3-31 09:46:29

1）自然流动的ev，或者说均衡时双方的ev
2）偏离时双方的ev
3）剥削时双方的ev
4）输赢
这是四种不同的概念

均衡确实是动态的。

pengyunsong · 发表于 2017-3-31 09:54:58

是不是可以简单的认为GTO是防守策略，剥削是进攻策略

pengyunsong · 发表于 2017-3-31 09:57:19

但是也没有绝对的GTO策略，不同的局，不同的对手，有不同的GTO策略

pengyunsong · 发表于 2017-3-31 10:01:10

如果说绝对的GTO策略能盈利的话，那就是扑克之星的ZOOM桌吧

我是Jsli · 发表于 2017-3-31 12:00:55

本帖最后由我是Jsli 于 2017-3-31 12:07 编辑

好贴

1.gto是纳什平衡?还是最佳打法？
2.纳什平衡=最佳打法吗？
3.扑克是石头、剪刀、布的游戏吗？

Rich贴子貌似说gto可以理解为纳什平衡.

石头、剪刀、布是针对性
100%不是纳什平衡.

有一点可以明确的是
扑克online 外挂软件或者说AI
绝对打的是石头、剪刀、布

我是Jsli · 发表于 2017-3-31 12:23:10

本帖最后由我是Jsli 于 2017-3-31 12:36 编辑

我是Jsli 发表于 2017-3-31 12:00
好贴

1.gto是纳什平衡?还是最佳打法？

有人对我说“别再说gto了”丢人
“某某大神们正研究gto”

可是从某大神发德x圈的"偏好"贴子来看
真的不咋滴

Keybattle河抓bluffe的gto贴子有点启发
比如只分析河的action
双方中的一方有1/3bluff与另一方三把抓一把bluff
这是个平衡状态
任何一方偏离bluff与抓bluff1/3的概率
都会偏离盈利

问题是bet与call是2个不同的行为
没有考虑拆克-raise或者raise对方bet的action

而拆克-raise或者raise对方bet
明显可以归为石头、剪刀、布因为河bet的一方有多少是第二第三第四坚果？
有效筹码量又是多少？

基本上可以大概率的说
相比教学的gto
开发online应用的外挂软件才是大神们的
正经事

		自动登录	找回密码
密码			注册

"平衡""偏离""GTO""剥削"到底是啥？

本帖子中包含更多资源

本帖子中包含更多资源

客服中心

投诉建议