人机大战：人类选手回天乏术

gulugulubing · 发表于 2017-1-31 21:16:19

Callyourbet 发表于 2017-1-31 16:51
我只问一句

这种 Heads up有赌场的抽水没有，按照 pot 抽。

应该是100bb买入吧人家也是正规大学搞研究 15bb买入还有啥好研究的网站上应该又详细介绍懒得找了

yyy6 · 发表于 2017-1-31 22:06:27

输神发表于 2017-1-31 15:26
你说的很正确，因为人类分析以往数据去平衡GTO的能力永远不及电脑，一定会有弱点，在实战中必须长期游戏 ...

电脑根本就不在乎你换不换人我估计电脑根本就没采用任何exploit的策略电脑只需要play比人类更接近gto就够赢飞了

Jimihandrix · 发表于 2017-1-31 23:38:06

本帖最后由 Jimihandrix 于 2017-1-31 23:43 编辑

输神发表于 2017-1-31 15:26
你说的很正确，因为人类分析以往数据去平衡GTO的能力永远不及电脑，一定会有弱点，在实战中必须长期游戏 ...

根据我掌握的知识似乎并不是这样，人类的倾向是可以量化的，大概是这样的。
1.动作组合
假设筹码深度100BB，那么一次动作有这么多的可能
过牌
下注1BB
下注2BB
...
下注100BB
第二次在原有筹码深度减去第一次下注量的基础上计算，同时增加一个弃牌的动作
以此类推，直到本条街结束(双方过牌，一方跟注，一方弃牌，allin）可以计算出一条街的所有动作组合
以此类推，可以计算出所有全部四条街的动作组合

2.公牌&手牌
计算出所有可能的公牌和手牌的组合
例如，AsAd或者15%，在JJJJ2s
将手牌公牌组合结合下注组合，计算所有手牌在所有公牌（4条街）的所有可能的下注组合，得到所有可能的策略，换句话说就是就是所有倾向
这是一个天文数字，具体多大我完全没概念。但是，只要筹码深度不是无穷大，混合策略中的step不是无穷小（比如每一个特定的范围或手牌的精确度=1%，AA 99%allin+1%过牌，事实上这已经足够定性了，再小对EV的影响忽略不计），那么这个结果肯定是一个有限的数字

GTO研究的就是面对所有这些可能的策略而不被剥削的策略（对上所有可能的策略得到的EV的加权平均数)

如果真的已解决这个问题，那么换人或者换策略都不能改变电脑的优势。

keybattle · 发表于 2017-2-1 04:29:11

输神发表于 2017-1-31 15:26
你说的很正确，因为人类分析以往数据去平衡GTO的能力永远不及电脑，一定会有弱点，在实战中必须长期游戏 ...

- -同样搞数据挖掘的给你一答。。

围棋是穷举不了的。。。。计算量太大了。前期也是靠神经网络训练出来的模型去下，到了后期棋盘格子越少，计算机优势越大，可以适当放入穷举。

德扑也是机器学习去训练的。发的文章还没看，以我的菜鸡水平，应该可以看懂点皮毛，有空去拜读一下细节。。。再说一下，机器无限接近GTO的话，根本不需要偏离就可以保证稳赢。调整剥削打法也是GTO使用一段时间之后的调整

输神 · 发表于 2017-2-1 11:41:31

Jimihandrix 发表于 2017-1-31 23:38
根据我掌握的知识似乎并不是这样，人类的倾向是可以量化的，大概是这样的。
1.动作组合
假设筹码深度100BB ...

这......太复杂了，我数学是个渣我们还是讨论猜拳的逻辑吧

我对GTO的理解，就是AI在没有记录人类样本的情况下出剪刀石头布的概率都是1/3，很平均，相当于REG标准的打法。

因为人类会有倾向，比如开始放宽范围挤压了变成LAG，好比出剪刀的频率变高了。
这时候电脑的GTO，就是也改变倾向来应对，从剪刀石头布的概率都是1/3，变成出石头次数增加来保持平衡立于不败。
看上去好像人类打得再好再懂得平衡，也只能跟电脑打个平手，可是真的是这样吗？

答案是否定的，因为人有先手的优势，就是创造性思维，而电脑记录的数据永远只能跟在人后面吃灰。
比如AI现在倾向于出石头，人刚好针对性的出一个布赢了，这时候人突然不玩了，保证这个比分1:0，就相当于是人类赢了。
也许你会问在AI身经百战见得多了以后，会不会在有自知之明知道自己倾向出石头的情况下，故意给人类下套出个剪刀，那是必须的。
就像在德州扑克里面就是，对手有什么牌>>对手认为我有什么牌>>对手认为我读出他有什么牌......>>对手有什么牌，这样一个循环的思维。
而德州分析起来太复杂了，换成猜拳就是对手可能出石头>>对手认为我会因此出布而出剪刀>>对手认为我看穿他出剪刀决定出布>>对手认为我也是这么想的会反过来出剪刀，于是还是回到出石头。
无论计算机的思维层面通过计算变得如何深不见底，无论怎样去“人类的倾向是可以量化的”，最终选择的策略也只能是以上三个的其中一个。
因为计算机不可能又出剪刀又出石头，自然也证明了”得到所有可能的策略，换句话说就是就是所有倾向“是不存在的，所有跟GTO有关博弈游戏同样也无法脱离上面这个循环。
于是，就会出现你的思维层面明明落后电脑好几级，但是选择的策略刚好处在克制电脑的那一级，就这样赢了电脑。

至于那先手的优势在玩德州的时候体现在哪里？就是GTO在面对先手第一次SQUEEZE挤压的时候永远都是要先被削一次的，上面那些高手在初期赢了电脑恰恰证明了这一点。
而GTO的优势是在被削之后更好的削回来，针对人类高手自己也难以察觉的并且已经体现在数据上了的弱点进行行动，于是后面那些高手也想用GTO来平衡，但无奈电脑已经将他们出剪刀石头布的规律弄清楚了，包括他们自己都不知道的规律，而他们自己却还认为自己是在变换讨论没有任何规律。
这时候，应该赶快上菜鸟，来个返璞归真，电脑马上又SB了。

snowsnow · 发表于 2017-2-1 17:14:04

输神发表于 2017-2-1 11:41
这......太复杂了，我数学是个渣我们还是讨论猜拳的逻辑吧

我对GTO的理解，就是AI在没有记录人类样本的 ...

人类把电脑打成SB的可能基本没有。

剪刀石头布的游戏，电脑随机出，你赢的可能没有，跟猜硬币正反一样。
至于人工智能（AI），我是大学教历史的，我的理解是任何人工智能软件是该方面专家和IT人员合作开发的。
剪刀石头布的人工智能软件应该是扯淡，那有玩剪刀石头布的专家？
最多人类行为学可以沾边。

至于扑克，电脑的基础是起手牌，赢率，赔率。
因为电脑的计算力，把它打成SB不可能。
“应该赶快上菜鸟，来个返璞归真，电脑马上又SB了。”
人针对人打，要看谁。
即使电脑针对人打，对手ID不同，它会用打ID1（鱼）的方法打ID2（鲨鱼）吗？

输神 · 发表于 2017-2-1 17:23:43

snowsnow 发表于 2017-2-1 17:14
人类把电脑打成SB的可能基本没有。

剪刀石头布的游戏，电脑随机出，你赢的可能没有，跟猜硬币正反一 ...

纽约时报曾做了一个小猜拳机器人跟你玩，计算机分成两个难度模式：初学者（Novice）只会根据你的出拳习惯来猜你下一个会出什么，而高难度（Veteran）等级则会从收集了超过二十万场剪刀、石头、布的数据库中，猜你的下一步会出什么。（下图）

网上搜，有FLASH，再拿去慢慢研究

超速生活 · 发表于 2017-2-2 14:00:45

阿尔法也是模拟人类行为，在德州扑克里，人类的行为偏好应该比围棋更简化，咱们人类REG不也是把鱼和其它REG轻松分类了吗？而基础的GTO，各种概率计算，咱们电脑里一个几兆B的软件都可以瞬间计算完成。所以个人认为，德州扑克的机器人研发难度要远远低于阿尔法狗，线上德州尤其高额线上德州将来必定完蛋。

ggyy1414 · 发表于 2017-2-6 21:13:35

是200bb的深度。我觉得这次人机大战并不完全公平
希望能看到AI跟目前顶级的HU高手对战

Callyourbet · 发表于 2017-2-9 06:35:49

本帖最后由 Callyourbet 于 2017-2-9 06:38 编辑

gulugulubing 发表于 2017-1-31 21:16
应该是100bb买入吧人家也是正规大学搞研究 15bb买入还有啥好研究的网站上应该又详细介绍懒得找了
...

那这样电脑打败人类有什么意义

我看了，比赛都是电脑上打，又没有实战发牌。

然后，电脑不就是欺负，人类最聪明的脑袋没在扑克上开发出 100BB+的 GTO吗。
而且还是没抽水的扑克。

然后人类要想大家都输玩 1BB cap reset chips every hand, HU with 20% rake.既然是挑战，反正扑克是这样，规则游戏我不喜欢，我可以不玩，不找鲨鱼玩。电脑要是 1000K hands能赢，我算你狠。

PS：我上cash tabled都是不过 30BB,除非有确定的鱼才加满。要是电脑愿意挑战，30BB我确定cash game HU能在5%的抽水下，大不了一起输。

		自动登录	找回密码
密码			注册

人机大战：人类选手回天乏术

浏览过的版块

客服中心

投诉建议