简论人工智能对学习扑克策略的影响。

zhaoyue0o0o · 发表于 2017-1-12 13:22:24

写这遍文章只是抛砖引玉，我一个学费都退了的二流牌手的扑克心得。希望能帮助大家成长。
很多年前，我高二，记得翻开的第一本书是道尔布朗森的超级系统，只记得封面的第一句是，欢迎来到扑克世界，激进的赢钱的扑克世界。
而2017年年初，master 败尽群雄，六十连胜，柯洁有一番言论甚合我意，我们希望和人工智能共同学习。
master 没有学过任何的棋理，有四个系统决定他落子。如果有兴趣的朋友，你们可以看一下。
可  你们感知一下，如果普通围棋手。在master 的指导下，下了几百万手棋。那么他的水平会不会接近最优。
我自己本人就是这样训练出来的二流牌手

我不知道别人的学习方法是什么，而我的学习方法，就是在我早期打牌的时候，  我的辅助会自动读取桌面，读取筹码结构，得出基于最优情况下的范围。
  这是我的参考步骤1，
  何时运用参考步骤一呢，一个当我不了解对手的时候，
二当对手足够强。 sharkscope
会显示出对手是否为赢钱玩家，如果对手显示是赢钱玩家。我自然会使用步骤一，做出基于标准最优情况的范围。
第二步，。玩家分类。
  刚开始的时候，我只是照搬一的策略，然后开很多桌，磨一个生活费。  随着水平的进步，哦对市面上能找到的中文书我基本都看过。很多都是十遍以上。
于是我自己发展出了玩家分类，
简单来说，玩家分类系统是一个剥削策略。
  核心在于下面一句话
傻逼各种各样。职业玩家都一样。
在这种情况下，我们对娱乐玩家采用针对娱乐玩家的定制数据。的剥削策略。
  这里要提到一个工具
叫做 hm 2 ，他可以定制到各个位置的公开加注范围，三次加注范围，而我在得到这些范围后会和最优范围去比对。  如果一个动作偏离了最优范围，那么他的策略我们会尝试剥削它的漏洞，
我会举两个简单的例子
你看到mp 玩家公开加注a20
对手感知会加注所有的ax
  那么翻牌后他有a 频率会增加，面对后面位置的3bet更难抵抗（如果面对3bet fold 和面对3bet call 也会决定我们采用不同的3bet 范围）  （如果 open 30 拿到88➕aq➕ 百分之5 很难抵抗。）
而shark scope 会让我们得出种族趋势（就是职业多桌玩家倾向于在没有位置的情况下fold 3bet ，娱乐玩家倾向于买一个希望）
而最优剥削的跟注系统来自于
nce（有兴趣的可以搜索一下这个软件）  我们定制出很多自动记录对手某一个动作频率的笔记，当牌桌上显示这个笔记的时候，直接调整我们的范围。
  基于标准策略的最优跟注频率（这个源自于数学，理论上来说一手牌跟注只跟加注数量，死钱多少范围有关。）当我们知道这里标准情况下的最优跟注范围时，依然考虑  玩家分类。
我会简单说一些参数
（对手强度，剩余对手强度， icm，后续游戏影响，多桌数量，你对其他人是否有优势）这些参数决定了我是否会玩边缘牌。比如比赛前期我在 co 盖掉了k9s 如果我有10张桌子自然无所谓，  而如果只有5张，我可能会玩。又比如一个对手push 我拿到一手从数学上来说足够跟注的牌，后面对手足够强，我call 希望拿下，后面对手都是娱乐玩家我fold 因为活着我就对他们有优势。
因为每一个筹码量都有一个最优解，而筹码量越短，最优解越容易被解出来，世界上最顶尖的玩家会租一台服务器，然后算上几个月得到一个很大很大的数据库。当打牌的时候会直接调用这个数据库。来帮助他们做决定。  当然他们求解的数据依然进过压缩。
   因为这样的学习模式，所以我很多数学方面非常差，这也很容易解释。因为我根本没有学习过数学，而是每一道题我都会直接得到答案，而人又是可以自动学习的，当你知道很多答案的时候你自然能够类推其他答案  ，而在越来越多的情况下，你会生成基于本能的抓漏洞的能力。比如一道数学题，你们是求解方法，而我直接得到了答案，然后我会从答案去尝试推断求解方法。
抓漏洞的能力会通过这样一个步骤培养。（也
比如两人hu ，40bb对手open 百分之100 。抓漏洞， gto  可能85到90多对手多open 了百分之10，如果我也open 100 我会怕什么呢。（其实我是拿2到8 三到j） opend 这些牌本来不该open 但是我认为对手弃牌太多，我害怕被对手频繁的3bet 因为我大多数情况下鸡毛都没有所以嗯考虑 3bet （size range 频率等）这种反复的正反博弈来获得最大化的期望值。
简单的讨论了一点，标准最优策略，对人类学习的帮助，我会看心情更新第二部。基于人工智能增加的扑克策略。不保证跳票

BTCD · 发表于 2017-1-12 13:36:38

沙发

BTCD · 发表于 2017-1-12 13:48:18

这个gto写的比较清楚，信任82老师，感谢82老师，智游城就是需要这样的大神引导我们这些小

山冲水 · 发表于 2017-1-12 13:50:01

留名，看大神。

t54352 · 发表于 2017-1-12 15:10:27

等下慢慢研究，对机器人类似的打法非常有兴趣。

好多鱼 · 发表于 2017-1-12 21:42:24

很有趣

我是Jsli · 发表于 2017-1-13 13:29:56

本帖最后由我是Jsli 于 2017-1-13 13:31 编辑

老人家了只看了前1/3部分
后面gto还没看

zhaoyue思路才是online 的方向
现场用不上

扑克讲数学混德扑圈的墙爷
出来也整两句

Hebe · 发表于 2017-1-13 13:40:11

看了职牌和AI的直播，感觉AI技术是日益完善了，估计以后线上就不用玩了。

我是Jsli · 发表于 2017-1-13 13:55:27

本帖最后由我是Jsli 于 2017-1-13 16:16 编辑

终于看完了
关于gto的描述还是误导了吧

老朱之前gto非常清楚了
1.gto是一个平衡状态,通常与最佳打法不是一回事.
2.傻逼各种各样.职业玩家都一样(这里赞一个).所以你看最佳打法千奇百怪.
3.当扑克双方的一方脱离gto(一个平衡状态),作为扑克的另外一方,也应该脱离gto这个平衡状态,采取对应的针对打法,最大利益化.

关于3补充一下
当HU的一方自觉或者不自觉偏离gto平衡状态
另一方的最佳策略一定也应偏离gto平衡状态.
Gto不是扑克的最佳策略
Gto仅仅是HU双方在一个可能的平衡状态下的最佳策略.

1025 · 发表于 2017-1-16 09:01:32

学习了

		自动登录	找回密码
密码			注册

简论人工智能对学习扑克策略的影响。

浏览过的版块

客服中心

投诉建议