强化学习算法

作品数:313被引量:809H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:俞扬周志华钱丽萍黄亮吴远更多>>
相关机构:东南大学北京邮电大学清华大学电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机应用研究x
条 记 录,以下是1-9
视图:
排序:
未知环境下基于突变定位SAC算法的移动机器人路径规划
《计算机应用研究》2025年第2期455-461,共7页胡立坤 韦春有 
广西科技计划资助项目(桂科AB21220039)。
针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信...
关键词:移动机器人 路径规划 深度强化学习算法 SAC算法 激光雷达 未知环境 
求解外卖配送问题的深度强化学习算法
《计算机应用研究》2025年第1期205-213,共9页张旭阳 刘勇 马良 
教育部人文社会科学研究青年基金资助项目(21YJC630087)。
以最小化骑手费用效益比为优化目标,采用最小比率旅行商问题对外卖配送问题进行建模。针对目前算法在求解该问题时计算精度低、算法稳定性差等问题,设计一种基于深度强化学习的DRL-MFA算法。首先,定义外卖配送问题的马尔可夫决策模型来...
关键词:外卖配送问题 最小比率旅行商问题 深度强化学习 多特征嵌入 注意力机制 
一种基于梯度的多智能体元深度强化学习算法被引量:1
《计算机应用研究》2024年第5期1356-1361,共6页赵春宇 赖俊 陈希亮 张人文 
国家自然科学基金资助项目(61806221)。
多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到...
关键词:元学习 深度强化学习 梯度下降 多智能体深度强化学习 
带平衡约束矩形布局优化问题的深度强化学习算法被引量:2
《计算机应用研究》2022年第1期146-150,共5页徐义春 万书振 董方敏 
国家自然科学基金—新疆联合基金资助项目(U1703261)。
带平衡约束的矩形布局问题源于卫星舱设备布局设计,属于组合优化问题。深度强化学习利用奖赏机制,通过数据训练实现高性能决策优化。针对布局优化问题,提出一种基于深度强化学习的新算法DAR及其扩展算法IDAR。DAR用指针网络输出定位顺序...
关键词:布局优化问题 指针网络 强化学习 深度学习 
双Q网络学习的迁移强化学习算法被引量:5
《计算机应用研究》2021年第6期1699-1703,共5页曾睿 周建 刘满禄 张俊俊 陈卓 
国家“十三五”核能开发项目(20161295);国家科技重大专项资助项目(2019ZX06002022)。
深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力。为了提高算法学习效率,提出一种双Q网络学习的迁移强化...
关键词:深度强化学习 双Q网络学习 actor-critic框架 迁移学习 
大型数据库中利用强化学习改进treap的关联规则挖掘算法被引量:12
《计算机应用研究》2021年第1期88-92,共5页辛春花 郭艳光 鲁晓波 
国家自然科学基金资助项目(31660602,31660701,31960361);内蒙古自然科学基金资助项目(2017BS403);内蒙古自治区高等学校科学研究项目(NJZY20055)。
信息的爆炸式增长使数据挖掘分析过程更加困难,针对普通关联规则挖掘算法很难在短运行时间和低关联度的前提下完成大型数据库中变量关系的评估和发现的问题,提出利用强化学习算法改进treap的大型数据库关联规则挖掘算法。提出的算法首...
关键词:改进型treap算法 强化学习算法 大型数据库 优先模型 关联规则 
基于出租车司机经验的约束深度强化学习算法路径挖掘被引量:6
《计算机应用研究》2020年第5期1298-1302,共5页黄敏 毛锋 钱宇翔 
国家自然科学基金资助项目(U1611461,11574407);广东省科技计划项目(2016A020223006);中央高校基本科研业务费专项资金资助项目(17lgjc42)。
利用出租车司机经验,提出约束深度强化学习算法(CDRL)在线计算不同时间段内OD间最快路线。首先描述了路段经验数据库(ERSD)的提取;然后介绍了CDRL方法,包括可选择约束路段生成和深度Q-lear-ning算法两个阶段,在第一阶段,生成OD(起终点)...
关键词:最快路径挖掘 路段经验数据库 经验学习 深度强化学习 
基于RBF神经网络和强化学习算法的供应链产销协同计划冲突消解研究被引量:5
《计算机应用研究》2015年第5期1335-1338,1344,共5页武玉英 李豪 蒋国瑞 
国家自然科学基金面上资助项目(71371018);北京市社科规划项目(13JDJGB037)
为提高传统协商自学习能力,利用多agent智能技术,建立基于黑板模型的协商框架,构建五元组协商模型,采取Q-强化学习算法,给出一种协商策略;使用RBF神经网络进一步优化协商策略,预测对手信息并调整让步幅度。通过算例验证该方法的可行性...
关键词:多AGENT 自学习 RBF神经网络 Q-强化学习 冲突消解 
一种新的基于蚁群优化的模糊强化学习算法被引量:2
《计算机应用研究》2011年第4期1266-1268,1271,共4页谢光强 陈学松 
模糊Sarsa学习(FSL)是基于Sarsa学习而提出的一种模糊强化学习算法,它是一种通过在线策略来逼近动作值函数的算法,其每条模糊规则中,动作的选择是按照Softmax公式选择下一个动作。对于连续空间的复杂学习任务,FSL不能较好平衡探索和利...
关键词:强化学习 模糊Sarsa学习 蚁群优化 
检索报告 对象比较 聚类工具 使用帮助 返回顶部