强化学习方法

作品数:126被引量:575H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:程玉虎王雪松刘全李厚强周文罡更多>>
相关机构:清华大学中国科学技术大学南京大学浙江大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金江苏省自然科学基金江苏省高校自然科学研究项目中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机科学x
条 记 录,以下是1-7
视图:
排序:
基于值函数分解的多智能体深度强化学习方法研究综述
《计算机科学》2024年第S01期22-30,共9页高玉钊 聂一鸣 
多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和...
关键词:多智能体深度强化学习 值函数分解 拟合能力 收敛效果 可扩展性 
基于观测重构的多智能体强化学习方法被引量:1
《计算机科学》2024年第4期280-290,共11页史殿习 胡浩萌 宋林娜 杨焕焕 欧阳倩滢 谭杰夫 陈莹 
科技部科技创新2030-重大项目(2020AAA0104802);国家自然科学基金(91948303)。
共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKO...
关键词:观测重构 多智能体协作策略 多智能体强化学习 独立学习 
基于相似度约束的双策略蒸馏深度强化学习方法被引量:1
《计算机科学》2023年第1期253-261,共9页徐平安 刘全 
国家自然科学基金(61772355,61702055);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏高校优势学科建设工程资助项目。
策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量...
关键词:深度强化学习 策略蒸馏 相似度约束 知识迁移 连续控制任务 
基于相对熵的元逆强化学习方法被引量:4
《计算机科学》2021年第9期257-263,共7页吴少波 傅启明 陈建平 吴宏杰 陆悠 
国家自然科学基金项目(61876217,61876121,61772357,61750110519,61772355,61702055,61672371);江苏省重点研发计划项目(BE2017663)。
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任...
关键词:逆强化学习 元学习 奖赏函数 相对熵 梯度下降 
基于改进深度强化学习方法的单交叉口信号控制被引量:18
《计算机科学》2020年第12期226-232,共7页刘志 曹诗鹏 沈阳 杨曦 
浙江省公益技术研究计划项目(LGG20F030008);浙江省自然科学基金项目(LY20F030018)。
利用深度强化学习技术实现路口信号控制是智能交通领域的研究热点。现有研究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题,但这些研究往往忽略了信号灯状态对动作选择的影响以及经验池中的数据采样效...
关键词:信号控制 动作奖惩系数 多指标系数加权 优先级序列经验回放 深度Q网络 
一种大规模离散空间中的高斯强化学习方法被引量:1
《计算机科学》2009年第8期247-249,275,共4页周文云 刘全 李志涛 
国家自然科学基金项目(60673092;60775046;60873116);教育部科学技术研究重点项目(207040);中国博士后科研基金(20060390919);江苏省高校自然科学基金(06KJB520104)资助
针对大规模离散空间中强化学习的"维数灾"问题,即状态空间的大小随着特征的增加而发生指数级的增长,提出了一种基于高斯过程的强化学习方法。在本方法中,高斯过程模型有表示函数分布的能力,使用该模型之后,可以得到的不只是一个所需的...
关键词:强化学习 维数灾 高斯过程 回归 函数分布 
一种多步Q强化学习方法被引量:3
《计算机科学》2006年第3期147-150,共4页陈圣磊 吴慧中 韩祥兰 肖亮 
本文得到国防预研基金项目资助
Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k...
关键词:强化学习 MQ算法 Q学习 Q(λ)算法 
检索报告 对象比较 聚类工具 使用帮助 返回顶部