Skip to content
"AI is likely to be either the best or worst thing to happen to humanity."— Stephen Hawking

多智能体系统与强化学习

基本信息

课程名称:多智能体系统与强化学习

课程介绍:本课程围绕多智能体系统与强化学习的基本理论与方法,系统讲解多智能体协同与博弈建模、学习与决策机制,培养学生利用强化学习技术解决复杂多主体智能决策问题的能力。

课程画像:

  • 课程类型:选修(保研必修)

  • 学分:2 学分

  • 考核方式:考勤 10% · 课程实践 40% · 闭卷期末考试 50%

课程资料区

课程资料库(课件、课后作业、课程项目): repo

经验分享区

课程定位评价:授课内容包括强化学习基础、时差学习、基于模型的强化学习等,整体难度是有的,但由于没有期末考试,认真完成课后作业和课程项目即可,综合评价为难度中等

作业反馈: 课后小作业都是实现一些强化学习的经典算法,如DQN,MAPPO等。课后大作业和课程项目要分配好每个组员的任务,整体难度不大。

作业参考:

  • 2026 春学期(持续更新中……):
    • 课程实践:40分,2道,提交课程报告
      • 峡谷漫步实验(3.15~3.31)
      • 重返秘境实验(4.1~4.15)
    • 期末考试:50分,闭卷
  • 2025 春学期:
    • 课后小作业
      • 共10次,个人完成,占20分
      • 主题都是经典的强化学习与多智能体相关的算法
    • 课后大作业
      • 共2次,小组完成(每组3人),占20分
      • 主题分别为森林狩猎合作游戏蒙特祖玛的复仇(atari) 单智能体决策
    • 课程项目
      • 主题4选1,小组完成(每组6人),占50分
      • 主题分别为SUMO交通信号灯环境下得到最优策略PyTorch-SnakeRLKeras-FlappyBird基于MARL的仓储物流路径规划与任务分配系统

高分策略: 认真完成课后作业和课程项目,注意在报告中清晰体现算法、实现方式和实验结果。