近来,掼蛋正以迅雷不及掩耳之势,占领很多人的休闲生活,成为不少地方最为吃香的大众娱乐。根据工人日报微信公号发布的数据,据不完全统计,仅在江苏和安徽两省就有超过2000万人经常参加各类掼蛋活动,全国掼蛋爱好者已达1.4亿人。
澎湃新闻记者查询发现,中国科学院计算技术研究所官方微信公众号1月30日刊文《南京大学高阳团队带您“玩转”掼蛋》。
文章介绍,国内扑克游戏,如掼蛋、斗地主等非完美信息博弈,具有信息集状态多、动作空间复杂、状态动作难以约简等特点,大部分现有方法难以应用。本文对掼蛋进行研究,提出的SDMC方法在第2届“中国人工智能博弈算法大赛”取得冠军。
文章在摘要部分介绍:在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一,因此具有能够进行良好决策的能力被视为人工智能的重要能力之一。而游戏类型的博弈作为对现实世界的一种高度抽象,具有良定义、易检验算法优劣等特点,成为研究的主流。其中以掼蛋为代表的扑克类博弈不仅具有他人手牌未知这样的难点,还由于可选出牌动作与他人手牌情况数量庞大等特点,难以进行高效求解。
因此,本文提出了一种软深度蒙特卡洛(soft deep Monte Carlo,SDMC)求解方法。该方法能够更好地融合领域知识,加快策略学习速度,并采用软动作采样策略调整实时决策,提升策略胜率。所提出的SDMC方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”时获得冠军。 与第1届比赛冠军策略和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性。
文章总结:本文提出了一种针对掼蛋扑克博弈的软深度蒙特卡洛SDMC方法。SDMC方法在学习过程中不仅采用了软启动方法,结合已有策略,加速模型训练过程,同时采取软动作采样,在实际对战过程中,保证选择的策略在当前模型下的评估值变化不大的情况下对动作进行采样,降低训练过程中方差带来的影响,并增加被对手利用的难度。在掼蛋环境下的实验表明,本文所提方法SDMC相较于现有方法有着更高的对战胜率与净胜得分。之后,拟从软动作采样的角度出发,依据现有模型的动作评估值,结合子博弈求解方法提升在实战环境下的策略强度,致力于得到在团体对战情况下的团队最大最小均衡等博弈论角度下的最优策略,最终实现在掼蛋等扑克博弈环境下战胜人类的职业选手。
据南京大学官网介绍,高阳教授,博导。目前任南京大学健康医疗大数据国家研究院常务副院长,南京大学陆海安全决策技术教育部重点实验室副主任。曾任南京大学计算机科学与技术系副主任(2011-2023)。2009年入选江苏省“333高层次人才培养工程”第二批中青年科学技术带头人,2010年入选教育部新世纪优秀人才支持计划,2019年度入选江苏省高等学校优秀科技创新团队负责人,2022年入选江苏省军民融合创新领军人才,2022年入选“天山学者”。中国人工智能学会会士,江苏省人工智能学会常务副理事长。
高阳1997年开始从事人工智能、机器学习、多智能体系统、大数据、图像和视频分析等领域的学术研究。作为第一负责人主持国家自然科学基金重大项目课题、重点项目、军民共性技术联合基金项目各一项、面上项目三项、青年项目一项;主持科技部国际合作专项一项、科技创新2030—“新一代人工智能”重大项目课题两项;主持江苏省自然科学基金重点项目一项,江苏省重点研发计划项目一项等。
高阳基于所研究成果,在国际学术期刊(IEEE Transactions系列)、国际会议(CCF-A/B类会议)和国内一级刊物上(计算机学报、软件学报等)发表学术论文数200余篇,译著《统计强化学习》、《机器学习的算法视角》,编著《分布式人工智能》等。获授权专利10项,国际PCT专利1项;获江苏省科学技术奖二等奖一次(“面向复杂交互场景的新型机器学习技术”,排名第一)、中国人工智能学会吴文俊自然科学奖二等奖一次(“强化学习理论与应用”,排名第一)、军队医疗成果奖二等、三等各一项。
高阳目前为中国人工智能学会会士、智能服务专委会副主任/机器学习专业委员会常委/粒计算与知识发现专业委员会常委;中国计算机学会杰出会员,人工智能与模式识别专业委员会常委、秘书长/多智能体与智能系统学组常务副组长/大数据专家委委员;中国指挥与控制学会信息融合专委会副主任/智能博弈与兵棋推演专委会常委;江苏省人工智能学会常务副理事长;江苏省软件与信息服务标准化委员会人工智能标准工作组组长等。担任《软件学报》、《智能系统学报》、《计算机科学》、《模式识别与人工智能》、《ZTE Communications》等期刊的编委。
以下为《基于深度强化学习的掼蛋扑克博弈求解》的图文介绍: