深度强化学习与机器人控制.pptx

上传人:p** 文档编号:296692 上传时间:2023-05-05 格式:PPTX 页数:16 大小:163.95MB
下载 相关 举报
深度强化学习与机器人控制.pptx_第1页
第1页 / 共16页
深度强化学习与机器人控制.pptx_第2页
第2页 / 共16页
深度强化学习与机器人控制.pptx_第3页
第3页 / 共16页
深度强化学习与机器人控制.pptx_第4页
第4页 / 共16页
深度强化学习与机器人控制.pptx_第5页
第5页 / 共16页
深度强化学习与机器人控制.pptx_第6页
第6页 / 共16页
深度强化学习与机器人控制.pptx_第7页
第7页 / 共16页
深度强化学习与机器人控制.pptx_第8页
第8页 / 共16页
深度强化学习与机器人控制.pptx_第9页
第9页 / 共16页
深度强化学习与机器人控制.pptx_第10页
第10页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《深度强化学习与机器人控制.pptx》由会员分享,可在线阅读,更多相关《深度强化学习与机器人控制.pptx(16页珍藏版)》请在第壹文秘上搜索。

1、深度强化学习与机器人控制深度强化学习与机器人控制强化学习(REINFORCEMENT LEARNING, RL)Agent通过与环境交互学习一个从环境状态到行为的映射,学习的目标是使累积折扣奖赏最大。可用Markov决策过程描述,四个元素:S、A、P、R深度强化学习(DEEP REINFORCEMENT LEARNING, DRL)从感知到控制结合深度学习的感知能力和强化学习的决策能力,直接从高维原始数据学习控制策略。解决了强化学习的1.函数逼近器:连续状态到连续动作空间映射问题;2.end to end:高维数据直接到动作的映射发展:Q-learningDQNPolicy Gradient:

2、 end to endDeep Deterministic Policy GradientAction network, Critic network1 Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning Nature 518.7540 (2015) 深度强化学习能干什么(棋类)游戏自动驾驶飞行器控制机械臂操作多足行走640深度强化学习能干什么(对于我们)动目标捕获(在轨服务,工业,娱乐)自主装配(在轨构建,工业)自动驾驶、导航(星表探测)多目标识别(在轨监测)设计师助手DRL应用于机器

3、人控制的步骤1.设计算法2.编写程序3.训练4.应用1.设计算法以动目标抓捕任务DQN方法为例明确任务,确定输入输(状态、动作)1.设计算法制定奖赏规则1.设计算法更新Q值函数传统上采用查表的方式计算Q值函数,为了计算方便,可以利用上一周期的值用Bellman方程等更新Q值:由于状态动作空间巨大,我们训练一个深度递归网络(Deep Recurrent Neural Network, RNN)来拟合Q值表。( , )( , )max( , )( , )aQ s aQ s arQ s aQ s a -L max( , )( , )( , )arQ s aQ s aQ s a 21max( , )(

4、 , )2aLrQ s aQ s a1.设计算法( )=argmax( , )asQ s a2.编写程序环境:Linux、Mac、Win架构:TensorFlow等语言:Python伪代码:0s 0;0;ss0;r rmax( , )( , )( , )arQ s aQ s aQ s a( , )( )Q s aDRNNa=argmax( , )aaQ s aa r0s 0;0;ss0;r rmax( , )( , )( , )arQ s aQ s aQ s a( , )( )Q s aDRNNa=argmax( , )aaQ s aa r3.训练两种训练方式:模拟训练:搭建模拟器、模拟训练、

5、移植OpenAI Gym,MuJoCo,rllab, DeepMind Lab, TORCS, PySC2等一系列优秀的平台MuJoCo(Multi-Joint dynamics with Contact)是一个物理模拟器,可以用于机器人控制优化等研究。TensorFlow等均集成了OpenAI Gym,MuJoCo实物训练:单机;多机经验共享3.训练实物训练模拟训练+移植4.应用经过长时间训练,算法收敛,性能满足要求后可应用于真实场景DRL顶尖成果(左:DEEPMIND 右:SIGGRAPH小组)总结深度强化学习为决策类问题(包括机器人控制)带来有效的解决方案,在某些领域可达到优于人的效果。对于我们来说在机器人抓捕、装配、规划、导航、行走方面皆可利用,服务于在轨服务、深空探测、辅助设计、民用市场开拓等领域。但DRL(人工智能)不是什么都适合干,不是什么都能干。我们应该斟酌其可利用的领域,不能为了赶时髦而盲目代入。AlphaGo战胜人类的意义确实是划时代的,借用两位人类棋手的话结尾:“人类千年的实战演练进化,计算机却告诉我们,人类全都是错的”柯洁 围棋九段“机器人永远不能像人类那样理解这个游戏的美妙。”李世石 围棋九段

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > Web服务

copyright@ 2008-2023 1wenmi网站版权所有

经营许可证编号:宁ICP备2022001189号-1

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。第壹文秘仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第壹文秘网,我们立即给予删除!