强化学习方法

作品数:126被引量:575H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:程玉虎王雪松刘全李厚强周文罡更多>>
相关机构:清华大学中国科学技术大学南京大学浙江大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金江苏省自然科学基金江苏省高校自然科学研究项目中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机技术与发展x
条 记 录,以下是1-3
视图:
排序:
基于相似度加权的无模型元强化学习方法
《计算机技术与发展》2024年第5期133-140,共8页赵春宇 赖俊 陈希亮 张人文 
国家自然科学基金项目(61806221)。
强化学习在游戏对弈、机器人控制等领域内已取得良好成效。为进一步提高训练效率,将元学习拓展至强化学习中,由此所产生的元强化学习已成为当前强化学习领域中的研究热点。元知识质量是决定元强化学习效果的关键因素,基于梯度的元强化...
关键词:元学习 强化学习 元强化学习 梯度下降 无模型 
带Q网络过滤的两阶段TD3深度强化学习方法被引量:3
《计算机技术与发展》2023年第10期101-108,共8页周娴玮 包明豪 叶鑫 余松森 
广东省应用型科技研发重大专项(2016B020244003);广东省基础与应用基础研究基金(2020B1515120089,2020A1515110783);广东省企业科技特派员项目(GDKTP2020014000)。
常规的深度强化学习模型训练方式从“零”开始,其起始策略为随机初始化,这将导致智能体在训练前期阶段探索效率低、样本学习率低,网络难以收敛,该阶段也被称为冷启动过程。为解决冷启动问题,目前大多数工作使用两阶段深度强化学习训练方...
关键词:两阶段深度强化学习 冷启动问题 模仿学习 预训练网络 TD3 
基于强化学习的多智能体泛化性研究被引量:2
《计算机技术与发展》2023年第4期114-119,共6页郭鑫 王微 青伟 李剑 何召锋 
国家自然科学基金(62176025,62076232);中央高校基本科研业务费专项资金资助(2021RC38,2021RC39)。
在多智能体强化学习算法的研究中,由于训练与测试环境具有差异,如何让智能体有效地应对环境中其他智能体策略变化的情况受到研究人员的广泛关注。针对这一泛化性问题,提出基于人类偏好的多智能体角色策略集成算法,该算法同时考虑了长期...
关键词:深度强化学习方法 多智能体 未知环境 策略集成 泛化性 可扩展性 
检索报告 对象比较 聚类工具 使用帮助 返回顶部