强化学习算法

作品数:313被引量:809H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:俞扬周志华钱丽萍黄亮吴远更多>>
相关机构:东南大学北京邮电大学清华大学电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于因果掩码的因果强化学习算法
《计算机工程》2025年第4期66-74,共9页黄思扬 蔡瑞初 乔杰 郝志峰 
国家自然科学基金(61876043,61976052,62206064);科技创新2030—“新一代人工智能”重大项目(2021ZD0111501);国家优秀青年科学基金(62122022)。
针对序列上连续决策问题,诸如故障告警根因定位问题,强化学习(RL)已经成为一种重要的解决方法,但现有强化学习方法存在样本效率低、探索成本高昂等问题,阻碍了其广泛应用。研究表明,引入因果知识为提升强化学习智能体的决策可解释性和...
关键词:强化学习 因果发现 因果强化学习 因果掩码 策略学习 
基于深度强化学习算法的水光互补优化调度研究
《水利水电技术(中英文)》2025年第4期235-247,共13页黄显峰 冉超越 周文 李旭 
国家自然科学基金项目(52179012);中国华能集团科技项目“澜沧江西藏段千万千瓦清洁能源基地建设水光互补关键技术研究”(HNKJ20-H20)。
【目的】水光互补优化调度中光伏出力具有波动性、随机性、间歇性等特点,其求解空间通常较高维、复杂且为连续空间,水光互补优化调度问题中涉及的多种连续控制决策问题。【方法】深度强化学习算法中的深度确定性策略梯度(DDPG)算法适合...
关键词:水光互补 强化学习 DDPG 优化调度 影响因素 水电站 
基于强化学习算法的飞行器轨迹防护及干扰策略生成方法
《电子信息对抗技术》2025年第2期15-23,共9页周彬 尚熙 刘枫 苏中华 
针对飞行器携带干扰模块在复杂电磁环境中合理利用航迹规避使自身突防能力最大化的问题,提出了一种基于强化学习算法的飞行器轨迹防护及干扰策略生成方法。电磁对抗背景选取多部S、C波段雷达,计算回波信号经过抗干扰模块处理后信噪比,...
关键词:强化学习 多功能雷达 飞行器轨迹防护 干扰策略 马尔科夫链 
基于强化学习算法的智能机加工房仿真优化设计
《制造技术与机床》2025年第4期41-48,共8页邓北武 成鹏飞 李彬弘 易文婷 刘熙宸 
湖南省哲学社会科学基金一般项目“数字经济赋能制造业高质量发展的机理与路径研究”(21YBA118)。
工业仿真软件已成为推动装备制造企业数字化转型与优化升级的重要工具。针对某集团智能机加工房的原设计方案,利用工业仿真软件对产房生产线进行数字化建模与模拟运行。通过对数控机床等设备的布局、利用率、物流路径和人机工程的仿真...
关键词:工业仿真软件 数字化转型 机器学习 优化算法 智能制造 
柔性作业车间调度问题的课程强化学习算法
《国防科技大学学报》2025年第2期49-59,共11页卢超 肖洋 张彪 高亮 
国家自然科学基金资助项目(52175490,51805495,52175490);湖北省重点研发计划资助项目(2022BAD121)。
针对深度强化学习在柔性作业车间调度问题上泛化能力不足的问题,提出结合课程学习和深度强化学习的方法。通过动态调整训练实例难度,重点增强最难实例的训练,以适应不同数据分布,避免学习过程中的遗忘问题。仿真测试结果表明,算法在未...
关键词:柔性作业车间调度 深度强化学习 课程学习 
基于强化学习的航班动态定价研究
《航空计算技术》2025年第2期1-5,共5页朱星辉 赵谦 陈欣 简露露 梁龙文 
国家自然科学基金项目资助(52302391)。
旅客订购机票时具备票价提醒功能,为了减少由于旅客行为差异而产生的经济损失,在对航空公司进行航班动态定价售票研究中,增加了旅客行为的考虑。将旅客分为两类:耐心型和短视型。耐心旅客倾向于等待票价降至其心理预期,而短视旅客则根...
关键词:强化学习算法 收益管理 旅客行为 动态定价 
基于深度强化学习算法的分布式光伏-EV互补系统智能调度
《高电压技术》2025年第3期1454-1463,共10页陈宁 李法社 王霜 张慧聪 唐存靖 倪梓皓 
国家自然科学基金(52166013)。
针对分布式光伏与电动汽车(electric vehicle,EV)大规模接入电网将对电力系统造成冲击的问题,通过建立分布式光伏-EV互补调度模型,以平抑光伏并网波动、增加EV用户经济性为目标,考虑光伏出力的随机性、负荷功率波动、EV接入时间及电量...
关键词:分布式光伏 电动汽车 V2G 深度强化学习 实时调度 近端策略优化 
深度强化学习算法在对抗性攻击防御中的应用探索
《网络安全和信息化》2025年第3期52-54,共3页张贻泉 张鹏 褚静 
围绕深度强化学习算法在对抗性攻击防御中的应用,提出了针对诸如快速梯度符号法攻击、投影梯度下降攻击、单像素攻击等多种对抗性攻击防御方法。深度强化学习算法作为一种强大的机器学习方法,能够使智能体在与环境的交互中不断学习和优...
关键词:强化学习算法 深度强化学习 攻击防御 恶意攻击者 机器学习方法 智能体 单像素 投影梯度 
光学显示材料遇上DeepSeek 催生智能显示新场景
《服务外包》2025年第3期30-31,共2页吴礼朗 
光学显示新材料技术与AI的结合正在推动显示行业的颠覆性变革。两者的融合不仅加速了材料研发和制造效率,还催生了智能显示的新场景。AI驱动的材料研发范式革命在逆向材料设计系统层面:通过生成对抗网络(GAN)构建材料基因图谱库,MIT团...
关键词:强化学习算法 德克萨斯大学 新材料技术 智能显示 材料基因 范式革命 制造效率 预测准确率 
基于深度强化学习算法的多无人水面航行器编队构造
《大连海事大学学报》2025年第1期11-20,42,共11页关巍 张诚 崔哲闻 韩虎生 
国家自然科学基金资助项目(52171342)。
针对传统多智能体深度确定性策略梯度算法(MADDPG)收敛速度较慢的问题,本文通过在值函数阶段引入注意力机制来提升多无人水面航行器系统编队决策模型的收敛速度,并通过编队模型与编队避碰和编队构造奖励函数的配合,提升了多无人水面航...
关键词:多无人水面航行器 编队构造 MADDPG算法 深度强化学习 注意力机制 
检索报告 对象比较 聚类工具 使用帮助 返回顶部