强化学习方法

作品数:126被引量:575H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:程玉虎王雪松刘全李厚强周文罡更多>>
相关机构:清华大学中国科学技术大学南京大学浙江大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金江苏省自然科学基金江苏省高校自然科学研究项目中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于流量预测的信号灯配时优化强化学习方法
《系统仿真学报》2025年第4期1051-1062,共12页许明 李金烨 左东宇 张晶 
辽宁工程技术大学博士科研基金(21-1027);辽宁省高等学校基本科研项目(LJKMZ20220699)。
针对现有基于强化学习的交通信号控制方法未考虑交通流量变化趋势,无法适应复杂多变路况而造成拥堵的问题,提出了基于流量预测的信号灯配时优化强化学习方法。提出相位配时幅度控制模型,分析历史流量数据的时空特性,对下一时间片的流量...
关键词:交通信号控制 智能交通 强化学习 卷积门控循环单元 
两团队零和博弈下熵引导的极小极大值分解强化学习方法
《自动化学报》2025年第4期875-889,共15页胡光政 朱圆恒 赵冬斌 
国家自然科学基金(62293541,62136008);北京市自然科学基金(4232056);北京市科技新星计划(20240484514);中国科学院“全球共性挑战专项”(104GJHZ2022013GC)资助。
在两团队零和马尔科夫博弈中,一组玩家通过合作与另一组玩家进行对抗.由于对手行为的不确定性和复杂的团队内部合作关系,在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性.鉴于此,提出一种熵引导的极小极大值分解(Entropy-g...
关键词:多智能体深度强化学习 两团队零和马尔科夫博弈 最大熵 值分解 
银行货币储备博弈的强化学习方法
《数学杂志》2025年第1期81-94,共14页李策 
在大规模银行交互系统中,各银行可通过控制与中央银行的借贷率来使自身对数货币储备尽可能地接近样本均值,从而降低系统性风险发生的概率.然而当状态过程与目标函数的参数未知时,无法直接求解随机微分博弈问题得到纳什均衡.本文结合平...
关键词:系统性风险 强化学习 近似纳什均衡 平均场博弈 
基于图感知强化学习方法的配电网在线无功电压控制策略研究
《电力系统装备》2025年第1期60-62,共3页吴浩 杨虎 韩禹 杨金明 李季 
随着分布式可再生能源的接入规模逐渐增加,配电网电压越限和网损增大等问题日益严重.文章提出了一种基于图神经网络和双延迟深度确定性策略梯度算法的配电网无功电压控制策略.先将配电网的无功电压控制问题建模为马尔科夫决策过程,并采...
关键词:配电网 马尔可夫决策 图神经网络 无功电压控制 
集成深度强化学习在股票指数投资组合优化中的应用分析被引量:1
《计算机科学与探索》2025年第1期237-244,共8页冀中 张文嘉 
基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法...
关键词:股票投资组合 交易策略 深度强化学习 双层嵌套集成深度强化学习方法 集成学习 
结合元学习和安全区域探索的进化强化学习方法
《计算机工程与应用》2025年第1期361-367,共7页李晓益 胡滨 秦进 彭安浪 
贵州省科技计划项目([2020]1Y275);贵州省科技计划项目(黔科合支撑[2022]一般267);国家自然科学基金(62066006)。
最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使...
关键词:进化强化学习 元学习 预训练 安全区域 突变算子 
渗透测试攻击路径规划的深度强化学习方法
《计算机仿真》2024年第12期471-476,共6页刘晓妍 易军凯 
国家自然科学基金项目(U1636208)。
渗透测试是一种评估网络系统安全程度的重要方法,以攻击者的角度模拟入侵行为,发现系统内潜藏的漏洞利用路径。针对渗透测试攻击路径规划训练中存在的路径规划质量不高和收敛困难等问题,提出一种改进的攻击图深度双Q网络算法(MulVAL Dou...
关键词:深度强化学习 渗透测试 攻击路径规划 
大模型引导的高效强化学习方法
《图学学报》2024年第6期1165-1177,共13页徐沛 黄凯奇 
新一代人工智能国家科技重大专项(2022ZD0116403);国家资助博士后研究人员计划项目(GZC20232995);中国科学院战略性先导科技专项资助项目(XDA27010201)。
深度强化学习作为支撑AlphaGo和ChatGPT等突破性工作的关键技术,已成为前沿科学的研究热点。在实际应用上,深度强化学习作为一种重要的智能决策技术,被广泛应用于视觉场景的避障、虚拟场景的优化生成、机器臂控制、数字化设计与制造、...
关键词:深度强化学习 大语言模型 高效探索 
面向柔性作业车间生产调度的深度强化学习方法被引量:1
《中国机械工程》2024年第11期2007-2014,2034,共9页祝正宇 郭具涛 吕佑龙 左丽玲 张洁 
国家自然科学基金(52375486);上海市“科技创新行动计划”高新技术领域项目(22511101903)。
针对多品种、小批量生产模式下柔性作业车间生产调度问题,以最小化订单总拖期时间为优化目标,提出一种基于组合规则和强化学习的智能调度方法。将柔性作业车间生产调度问题转换为马尔可夫决策过程,根据问题特点与优化目标,利用7种特征...
关键词:生产调度 柔性作业车间 深度强化学习 深度Q网络 
随机线性二次问题中一类改进的强化学习方法
《科技创新与应用》2024年第32期142-145,共4页高晋鹏 
随机线性二次问题是一类重要且研究较为成熟的随机控制问题。其中,部分信息条件下的随机线性二次问题是指系统的状态方程或代价函数中存在未知系数的情形,该文在前人工作的基础上,改进部分信息条件下线性二次问题的最优控制在线强化学...
关键词:随机线性二次问题 部分信息 李雅普诺夫方程 强化学习 动态规划原理 
检索报告 对象比较 聚类工具 使用帮助 返回顶部