智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 6302|回复: 12

简论人工智能对学习扑克策略的影响。

[复制链接]
zhaoyue0o0o 发表于 2017-1-12 13:22:24 来自手机 | 显示全部楼层 |阅读模式
写这遍文章只是抛砖引玉,我一个学费都退了的二流牌手的扑克心得。 希望能帮助大家成长。
很多年前,我高二, 记得翻开的第一本书是道尔布朗森的超级系统,只记得封面的第一句是,欢迎来到扑克世界,激进的赢钱的扑克世界。  
而2017年年初,master 败尽群雄,六十连胜,柯洁有一番言论甚合我意, 我们希望和人工智能共同学习。
master 没有学过任何的棋理,有四个系统决定他落子。如果有兴趣的朋友,你们可以看一下。
可  你们感知一下, 如果普通围棋手。在master 的指导下,下了几百万手棋。 那么他的水平会不会接近最优。
我自己本人就是这样训练出来的二流牌手


   我不知道别人的学习方法是什么, 而我的学习方法, 就是在我早期打牌的时候,  我的辅助会自动读取桌面, 读取筹码结构, 得出基于 最优情况下的范围。
  这是我的参考步骤1,
  何时运用参考步骤一呢, 一个当我不了解对手的时候,
二当对手足够强。 sharkscope
会显示出对手是否为赢钱玩家, 如果对手显示是赢钱玩家。 我自然会使用步骤一, 做出 基于标准最优情况的范围。
第二步,。玩家分类。
  刚开始的时候, 我只是照搬一的策略, 然后开很多桌, 磨一个生活费。  随着水平的 进步, 哦对市面上能找到的中文书我基本都看过。很多都是十遍以上。  
于是我自己发展出了 玩家分类,
简单来说, 玩家分类系统 是一个剥削策略。
  核心 在于下面一句话
傻逼 各种各样。职业玩家都一样。  
在 这种情况下,我们对娱乐 玩家 采用 针对娱乐玩家的 定制数据。的剥削策略。
  这里要提到一个 工具
叫做 hm 2   , 他可以定制到 各个位置的公开加注范围, 三次加注范围,   而我在得到这些范围后会和最优范围去比对。  如果一个动作偏离了最优范围, 那么他的策略 我们会尝试剥削它的漏洞,
我会举两个简单的 例子
你看到mp 玩家公开加注a20
对手感知会加注所有的ax
  那么翻牌后 他有a 频率会增加, 面对后面 位置的3bet更难抵抗( 如果面对3bet fold 和面对3bet call 也会决定我们采用不同的3bet 范围)  (如果 open 30 拿到88➕aq➕ 百分之5 很难抵抗。)
而shark scope 会让我们得出 种族趋势( 就是职业多桌玩家倾向于在没有位置的情况下fold 3bet ,娱乐玩家倾向于买一个希望)
而 最优剥削的跟注系统来自于
nce(有兴趣的可以搜索一下这个软件)  我们定制出很多自动记录对手某一个动作频率的笔记, 当牌桌上显示这个笔记的时候,直接调整我们的范围。
  基于 标准策略的 最优跟注频率(这个源自于数学, 理论上来说 一手牌跟注只跟 加注数量,死钱多少 范围有关。)   当我们知道这里标准情况下的最优 跟注范围时,依然考虑  玩家分类。
我会简单说一些 参数
( 对手强度,剩余对手强度, icm, 后续游戏影响, 多桌数量,你对其他人是否有优势) 这些参数决定了 我是否会玩边缘牌。比如 比赛前期 我在 co 盖掉了k9s 如果我有10张桌子自然无所谓,  而如果只有5张,我可能会玩。 又比如一个对手push 我拿到一手从数学上来说足够跟注的牌, 后面对手足够强, 我call 希望拿下, 后面对手都是娱乐玩家 我fold 因为活着我就对他们有优势。
因为每一个筹码量都有一个最优解, 而筹码量越短,最优解越容易被解出来, 世界上最顶尖的玩家会租一台服务器, 然后算上几个月 得到一个 很大很大的数据库。 当打牌的时候 会直接调用 这个数据库。 来帮助他们做决定。  当然 他们求解的数据依然进过压缩。
      因为这样的学习模式, 所以我很多数学方面非常差, 这也很容易解释。 因为我根本没有学习过数学, 而是每一道题我都会直接得到答案,而人又是可以自动学习的,当你知道很多答案的时候你自然能够类推其他答案  , 而在越来越多的情况下,你会生成基于本能的 抓漏洞的能力。比如一道数学题,你们是求解方法,而我直接得到了答案, 然后我会从答案去尝试推断求解方法。
   抓漏洞的能力会通过这样一个步骤培养。(也
比如 两人hu ,40bb对手open 百分之100 。 抓漏洞, gto  可能85到90多 对手多open 了百分之10, 如果我也open 100 我会怕什么呢。(其实我是拿2到8 三到j) opend 这些牌本来不该open 但是我认为对手弃牌太多, 我害怕被对手频繁的3bet 因为我大多数情况下鸡毛都没有所以 嗯 考虑 3bet (size range 频率等) 这种反复的正反博弈 来获得最大化的 期望值。
简单的讨论了一点,标准最优策略,对人类学习的帮助, 我会看心情更新第二部。 基于人工智能 增加的扑克策略。 不保证跳票
BTCD 发表于 2017-1-12 13:36:38 来自手机 | 显示全部楼层
沙发
BTCD 发表于 2017-1-12 13:48:18 来自手机 | 显示全部楼层
这个gto写的比较清楚,信任82老师,感谢82老师,智游城就是需要这样的大神引导我们这些小
山冲水 发表于 2017-1-12 13:50:01 | 显示全部楼层
留名,看大神。
t54352 发表于 2017-1-12 15:10:27 来自手机 | 显示全部楼层
等下慢慢研究,对机器人类似的打法非常有兴趣。
好多鱼 发表于 2017-1-12 21:42:24 | 显示全部楼层
很有趣
我是Jsli 发表于 2017-1-13 13:29:56 | 显示全部楼层
本帖最后由 我是Jsli 于 2017-1-13 13:31 编辑

老人家了只看了前1/3部分
后面gto还没看

zhaoyue思路才是online 的方向
现场用不上

扑克讲数学混德扑圈的墙爷
出来也整两句


Hebe 发表于 2017-1-13 13:40:11 | 显示全部楼层
看了职牌和AI的直播,感觉AI技术是日益完善了,估计以后线上就不用玩了。
我是Jsli 发表于 2017-1-13 13:55:27 | 显示全部楼层
本帖最后由 我是Jsli 于 2017-1-13 16:16 编辑

终于看完了
关于gto的描述还是误导了吧

老朱之前gto非常清楚了
1.gto是一个平衡状态,通常与最佳打法不是一回事.
2.傻逼 各种各样.职业玩家都一样(这里赞一个).所以你看最佳打法千奇百怪.
3.当扑克双方的一方脱离gto(一个平衡状态),作为扑克的另外一方,也应该脱离gto这个平衡状态,采取对应的针对打法,最大利益化.

关于3补充一下
当HU的一方自觉或者不自觉偏离gto平衡状态
另一方的最佳策略一定也应偏离gto平衡状态.
Gto不是扑克的最佳策略
Gto仅仅是HU双方在一个可能的平衡状态下的最佳策略.


1025 发表于 2017-1-16 09:01:32 来自手机 | 显示全部楼层
学习了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-3-29 20:58 , Processed in 0.043924 second(s), 7 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部