#6.3 A3C (Asynchronous Advantage Actor-Critic) (强化学习 Reinforcement Learning 教学)
Автор: Morvan Zhou
Загружено: 2017-05-02
Просмотров: 10666
Описание:
Google DeepMind 提出的一种解决 Actor-Critic 不收敛问题的算法. 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高.
详细的文字教程: https://morvanzhou.github.io/tutorial...
If you like this, please like my code on Github as well.
Code: https://github.com/MorvanZhou/Reinfor...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: