David Silver 深度强化学习课程「中文字幕」

David Silver 深度强化学习课程「中文字幕」 扫二维码继续学习 二维码时效为半小时

(2 评论)

免费

An introduction to reinforement learning Sutton and Barto 1998

algorithms for reinforcement learning 

rl ≠监督学习 rl ≠ 非监督学习

reinforcement learning problem:

目标函数 reward最大化

统一的框架 处理不同的问题

Goal :select actions to maximise totle future reward

 

 

[展开全文]

授课教师

AI100管理员