「alphago」搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
精选评测好文
原文标题:搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
机器之心报道
编辑:小舟、陈萍
来自牛津大学、弗莱堡大学、谷歌研究院等机构的十余位研究者撰文综述 AutoRL。
强化学习 ( RL ) 与深度学习的结合带来了一系列令人印象深刻的成果,许多人认为(深度)强化学习提供了通向通用智能体的途径。然而,RL 智能体的成功通常对训练过程中的设计选择高度敏感,可能需要繁琐且容易出错的手动调整。这使得将 RL 用于新问题具有挑战性,同时也限制了 RL 的全部潜力。
在机器学习的许多其他领域,AutoML 已经表明可以自动化此类设计选择,并且在应用于 RL 时也产生了有希望的初步结果。然而,自动强化学习 ( AutoRL ) 不仅涉及 AutoML 的标准应用,还包括 RL 独有的额外挑战,这使得研究者自然而然地产生了一些不同的方法。
AutoRL 已成为 RL 研究的一个重要领域,为从 RNA 设计到围棋等游戏的各种应用提供了希望。由于 RL 中考虑的方法和环境具有多样性,因此许多研究都是在不同的子领域进行的。来自牛津大学、弗莱堡大学、谷歌研究院等机构的十余位研究者撰文试图统一 AutoRL 领域,并提供了通用分类法,该研究详细讨论了每个领域并提出未来研究人员可能感兴趣的问题。
论文地址:https://arxiv.org/pdf/2201.03916.pdf
AutoRL 方法
强化学习理论上可以用于任何任务,包括世界模型未知的环境。然而,这种通用性也是有代价的,其最大的缺点就是智能体往往不能获得环境的真实模型。如果智能体想在一个场景下使用模型,那它必须完全从经验中学习,这会带来很多挑战。智能体探索出来的模型和真实模型之间存在误差,而这种误差会导致智能体在学习到的模型中表现很好,但在真实的环境中表现得不好(甚至很差)。
该研究调查的目的是介绍 AutoRL 领域,AutoRL 可以应对各种挑战:一方面,RL 算法的脆弱性阻碍了其在新领域的应用,尤其是那些从业者缺乏大量资源来搜索最佳配置的领域。在许多情况下,对于完全不可见的问题,手动找到一组中等强度的超参数可能会非常昂贵。AutoRL 已被证明可以在这种情况下帮助解决重要问题,例如设计 RNA。另一方面,对于那些受益于更多计算的人来说,显然增加算法的灵活性可以提高性能。著名的 AlphaGo 智能体已经展示了这一点,该智能体通过使用贝叶斯优化得到了显着改进。
早在 1980 年代,AutoRL 算法就被证明是有效的。然而,最近 AutoML 的流行导致了更先进技术的新生应用。与此同时,最近元学习的流行导致了一系列旨在自动化 RL 过程的工作。
该论文试图提供这些方法的分类,他们希望通过思想的交叉融合来开辟一系列未来的工作,同时也向 RL 研究人员介绍一套技术来提高他们的算法性能。该研究相信 AutoRL 在提高强化学习潜在影响方面发挥着重要作用,无论是在开放式研究和还是在现实应用中。
此外,该研究希望将对 AutoML 感兴趣的研究人员吸引到 AutoRL 社区,特别地,RL 具有非平稳性(non-stationarity),因为智能体正在训练的数据是当前策略的函数。此外,该研究还介绍了 AutoRL 针对特定 RL 问题的环境和算法设计。
该研究调查了 AutoRL 社区以及技术等内容。一般来说,AutoRL 方法大多数都可以通过组合内部循环和外部循环组织起来。每个循环都可以通过黑箱或基于梯度的方法进行优化,然而外部循环的梯度和内部循环的黑箱不能组合在一起,因为内部循环黑箱设置将使梯度不可用,如表 2 和图 2 所示:
如下表 3 所示,该研究按照大类总结了 AutoRL 方法的分类,方法分类将体现在第四章的每一小节
随机 / 网格搜索驱动方法
该研究首先讨论了最简单的方法:随机搜索和网格搜索。随机搜索从搜索空间中随机采样超参数配置,而网格搜索将搜索空间划分为固定的网格点,并对其进行评估。由于其简单性,随机搜索和网格搜索可用于选择超参数列表,评估超参数并选择最佳配置。事实上,网格搜索仍然是 RL 中最常用的方法,网格搜索在绝大多数情况下都会调整超参数,但不应将其视为最有效的方法。但是这些经典方法没有考虑优化问题的潜在非平稳性,下图 3 描述了这个问题:
提高随机搜索性能的一种常见方法是使用 Hyperband,这是一种用于超参数优化的配置评估。它专注于通过自适应资源分配和早停(early-stopping)来加速随机搜索。特别的,Hyperband 使用「Successive Halving」将预算分配给一组超参数配置。Zhang 等人使用随机搜索和 Hyperband 来调整其 MBRL 算法的超参数。
贝叶斯优化
贝叶斯优化(Bayesian Optimization ,BO)是迄今为止最流行的方法之一,主要用于工业应用和各种科学实验。对于 RL 应用程序,BO 最突出的用途之一是调整 AlphaGo 超参数,其中包括蒙特卡洛树搜索 ( MCTS ) 超参数和时间控制设置。这导致 AlphaGo 在自我对弈中的胜率从 50% 提高到 66.5%。图 4 展示了 RL 案例中贝叶斯优化的一般概念:
演化算法
演化算法被广泛应用于各种优化任务,其机制如图 5 所示:
演化算法经常被用于搜索 RL 算法的超参数。Eriksson 等人使用实数遗传算法 ( GA ) ,通过种群中每个个体的基因编码 RL 算法的超参数,以调整 SARSA 超参数,研究者将该方法应用于控制移动机器人。Cardenoso Fernandez 和 Caarls 使用 GA 在简单设置中调整 RL 算法的超参数,并通过结合自动重启策略以摆脱局部最小值,取得了良好的性能。Ashraf 等人使用 Whale 优化算法(WOA),其灵感来自座头鲸的狩猎策略,在各种 RL 任务中优化 DDPG 超参数以提高性能。
用于在线调优的元梯度
元梯度提供了一种替代方法来处理 RL 超参数的非平稳性。元梯度公式的灵感来自元学习方法,例如 MAML,它使用梯度优化了内部和外部循环。特别是,元梯度方法将其(可微分)超参数的子集指定为元参数 η。在内部循环中,智能体使用固定的 η 进行优化,采用梯度 step 来最小化(通常是固定的)损失函数。在外部循环中,通过采取梯度 step 来优化 η,以最小化外部损失函数。内部和外部损失函数的每个特定选择都定义了一个新的元梯度算法。
黑盒在线调优
PBT 和元梯度的优势在于动态调整超参数的能力,然而,这并不是唯一的方法。事实上,研究者已经考虑了各种其他方法,从黑盒方法到在线学习启发方法。本节重点介绍在超参数不是可微的设置中动态适应的单智能体方法。
自适应选择超参数的方法自 20 世纪 90 年代以来一直很重要。Sutton 和 Singh ( 1994 ) 提出了 TD 算法中自适应加权方案的三种替代方法,Kearns 和 Singh ( 2000 ) 推导出时序差分算法误差上限,并使用这些边界推导出 λ 的时间表。Downey 和 Sanner ( 2010 ) 使用贝叶斯模型平均来为 TD 方法选择 λ bootstrapping 超参数。最近, White ( 2016 ) 提出了 λ -greedy 来适应 λ 作为状态的函数,并实现近似最优的偏差 - 方差权衡,Paul 等人 ( 2019 ) 提出了 HOOF,它使用带有非策略数据的随机搜索来周期性地为策略梯度算法选择新的超参数。
环境设计
环境设计是强化学习智能体自动学习的重要组成部分。从课程学习到合成环境学习和生成,到将课程学习与环境生成相结合,这里的目标是加快机器学习智能体通过环境设计的学习速度。如图 7 所示:
混合方法
不可避免的是,一些方法不属于单一类别。事实上,许多方法都试图利用不同方法的优势,可称之为混合方法。在该研究中,这些混合方法被定义为使用表 3 中不止一类技术的方法,例如 BOHB、DEHB 等。
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
文章推荐:Ecovacs科沃斯两款扫地机三年使用报告,及一点使用小经验<\a>
其他人还看了
「安卓」追上iPhone?谷歌曝光安卓13新功能:全面学习iOS15
「android」安卓13来了!首个开发者版公布,三方图标随壁纸变色,电量管理系统
「云游戏」从toC转向toB?谷歌云游戏Stadia还有未来吗
郑重声明:本文“「alphago」搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述”,https://nmgjrty.com/shumacp_350789.html内容,由机器之心提供发布,请自行判断内容优劣。
上一篇:「playstation」索尼PS5最新测试版本公布:新增语音命令UI变化很大
下一篇:没有了
- 全部评论(0)
- 「alphago」搞强化学习还不了解AutoRL,牛津大学、谷歌等十余位学者撰文综述
- 「playstation」索尼PS5最新测试版本公布:新增语音命令UI变化很大
- 「华为p50」华为P50Pocket图赏:情人节还送花?精致灵巧的它不香吗?
- 「电竞」realme首发欧加125W快充?GTNeo3谍照曝天玑9000
- 「影驰」RTX308010G不到8000元
- 「分辨率」PNY推三款RTX3050显卡包括一款单风扇小卡
- 「hifi」为了让无线耳机音质更好,他们可没少下功夫
- 「it之家」《消逝的光芒2》发售首周玩家数量突破三百万
- 「海域」索尼《神秘海域》改编电影评分解禁好评率仅47%口碑堪忧
- 「计算机」程序员离职删代码被判10个月,京东到家说恢复数据库花了3万,网友
- 「uc」马斯克脑机公司被控诉虐猴:反复感染、癫痫发作、残害致死;科技与伦
- 「谷歌」Chrome8年来首次换Logo,能看明白算我输
- 「深信服」惊了,你想不想离职、有没有到处投简历,你的老板们都门儿清?
- 「gpu」SteamDeck掌机CAD文件公布,供改造达人、配件制造商参考
- 「nasa」NASA公布韦伯太空望远镜拍摄首批图像稍显模糊正继续调整
- 「短视频」暴利的影视剪辑产业链:抄袭成风,“最低月入5万,忘了上班什么
最新更新
- 「alphago」搞强化学习还不了解AutoRL,牛津
- 「playstation」索尼PS5最新测试版本公布:
- 「华为p50」华为P50Pocket图赏:情人节还送
- 「电竞」realme首发欧加125W快充?GTNeo3谍照
- 「影驰」RTX308010G不到8000元
- 「分辨率」PNY推三款RTX3050显卡包括一款单
- 「hifi」为了让无线耳机音质更好,他们可
- 「it之家」《消逝的光芒2》发售首周玩家
- 「海域」索尼《神秘海域》改编电影评分
- 「计算机」程序员离职删代码被判10个月
- 「uc」马斯克脑机公司被控诉虐猴:反复
- 「谷歌」Chrome8年来首次换Logo,能看明白
- 「深信服」惊了,你想不想离职、有没有
- 「gpu」SteamDeck掌机CAD文件公布,供改造达
- 「nasa」NASA公布韦伯太空望远镜拍摄首批
推荐阅读
- 「playstation」索尼PS5最新测试版本公布:新增语音命令UI变化很大
- 「华为p50」华为P50Pocket图赏:情人节还送花?精致灵巧的它不香吗?
- 「电竞」realme首发欧加125W快充?GTNeo3谍照曝天玑9000
- 「影驰」RTX308010G不到8000元
- 「hifi」为了让无线耳机音质更好,他们可没少下功夫
- 「分辨率」PNY推三款RTX3050显卡包括一款单风扇小卡
- 「it之家」《消逝的光芒2》发售首周玩家数量突破三百万
- 「海域」索尼《神秘海域》改编电影评分解禁好评率仅47%口碑堪忧
- 「计算机」程序员离职删代码被判10个月,京东到家说恢复数据库花了3万,网友
- 「uc」马斯克脑机公司被控诉虐猴:反复感染、癫痫发作、残害致死;科技与伦
- 「谷歌」Chrome8年来首次换Logo,能看明白算我输
- 「深信服」惊了,你想不想离职、有没有到处投简历,你的老板们都门儿清?
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano