基于强化学习的围棋对弈算法设计与实现任务书

 2022-01-13 09:01

全文总字数:1507字

1. 毕业设计(论文)主要内容:

在过去几年中,人工智能在棋牌类游戏(博弈)中取得新的成果,比如基于深度强化学习的 AlphaGo 击败了人类世界冠军,由 AlphaGo 进化而来的 AlphaZero 还一并搞定了国际象棋和日本象棋。

随着各大平台参与到其中,与围棋相关的人工智能算法越来越对普通计算机人员友好,亲自实现一个自我学习的围棋人工智能,可以成为上手研究人工智能的一个很好的入门途径。

据平台游戏环境编写一个多智能体强化学习算法,使得通过训练得到的智能体拥有较高的游戏水平。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

主要任务:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 毕业设计(论文)完成任务的计划与安排

2020年1月11日-2020年1月31日:阅读相关文献2020年2月1日-2020年2月28日:学习强化学习及棋牌博弈领域相关算法2020年3月1日-2020年3月31日:搭建相应的游戏环境,并熟悉相关源码2020年4月1日-2020年4月30日:完成基于强化学习的算法编写、训练及测试工作2020年5月1日-2020年5月24日:撰写并提交毕业论文。

4. 主要参考文献

[1] Sutton R S, BartoA G. Introduction to reinforcement learning[M]. Cambridge: MIT press, 1998.[2] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deepreinforcement learning[J]. Nature, 2015, 518(7540): 529.[3] Zha D, Lai K H, Cao Y, et al. RLCard: A Toolkit for Reinforcement Learningin Card Games[J]. arXiv preprint arXiv:1910.04376, 2019.[4] Heinrich J, Silver D. Deep reinforcement learning from self-play inimperfect-information games[J]. arXiv preprint arXiv:1603.01121, 2016.[5] Jiang Q, Li K, Du B, et al. DeltaDou: expert-level doudizhu AI throughself-play[C]//Proceedings of the 28th International Joint Conference onArtificial Intelligence. AAAI Press, 2019: 1265-1271.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。