强化学习算法

作品数:313被引量:809H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:俞扬周志华钱丽萍黄亮吴远更多>>
相关机构:东南大学北京邮电大学清华大学电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机工程与应用x
条 记 录,以下是1-10
视图:
排序:
图着色问题的算法研究综述
《计算机工程与应用》2024年第18期66-77,共12页宋家欢 王晓峰 胡思敏 贾璟伟 颜冬 
国家自然科学基金(62062001);宁夏青年拔尖人才项目(2021)。
图着色问题(graph coloring problem,GCP)是一个经典的组合优化问题,已广泛应用于数学、计算机科学和生物科学等多个领域。由于图着色问题的NP难特性,目前还没有多项式时间内的精确算法求解该问题,为了给出求解该问题的高效算法,需要对...
关键词:图着色问题 智能优化算法 启发式算法 强化学习算法 
基于CNN的深度强化学习算法求解柔性作业车间调度问题被引量:1
《计算机工程与应用》2024年第17期312-320,共9页李兴洲 李艳武 谢辉 
重庆市教育委员会科学技术研究项目(KJQN202001224);重庆市三峡库区地质环境监测与灾害预警重点实验室开放基金(YB2020C0102)。
在使用深度强化学习(DRL)算法解决柔性作业车间调度(FJSP)问题时,状态和动作的表示具有复杂多变的特性,这导致算法的求解质量不高,为了得到更优解,对状态和动作的表示进一步研究,以最大完工时间最短为优化目标,采用卷积神经网络(CNN)和...
关键词:深度强化学习(DRL) 柔性作业车间调度(FJSP) 卷积神经网络(CNN) 近端策略优化(PPO) 
近似强化学习算法研究综述被引量:6
《计算机工程与应用》2022年第8期33-44,共12页司彦娜 普杰信 孙力帆 
航空科学基金(20185142003);国家国防基础科学研究计划(JCKY2018419C001)。
强化学习用于解决无模型情况下的优化决策问题,是实现人工智能的重要技术之一,但传统的表格型强化学习方法难以处理具有大规模、连续空间的控制问题。近似强化学习受到函数逼近思想的启发,对价值函数或策略函数参数化表示,通过参数优化...
关键词:强化学习 连续空间 值函数近似 直接策略搜索 策略梯度 
深度强化学习算法求解作业车间调度问题被引量:8
《计算机工程与应用》2021年第23期248-254,共7页李宝帅 叶春明 
上海市科委软科学重点项目(20692104300);国家自然科学基金(71840003);上海理工大学科技发展基金(2018KJFZ043)。
由于传统车间调度方法实时响应能力有限,难以在复杂调度环境中取得良好效果,提出一种基于深度Q网络的深度强化学习算法。该方法结合了深度神经网络的学习能力与强化学习的决策能力,将车间调度问题视作序列决策问题,用深度神经网络拟合...
关键词:强化学习 深度强化学习 作业车间调度 深度Q网络 
深度强化学习算法在智能军事决策中的应用被引量:8
《计算机工程与应用》2021年第20期271-278,共8页况立群 李思远 冯利 韩燮 徐清宇 
国家部委预研项目。
深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技...
关键词:深度强化学习 深度Q网络 深度确定策略梯度 智能军事决策 多智能体 
改进强化学习算法应用于移动机器人路径规划被引量:8
《计算机工程与应用》2021年第18期270-274,共5页王科银 石振 杨正才 杨亚会 王思山 
湖北省重点实验室开放基金(ZDK1202003);湖北省教育厅科学技术研究计划青年人才项目(Q20201804)。
为了解决传统的强化学习算法应用于移动机器人未知环境的路径规划时存在收敛速度慢、迭代次数多、收敛结果不稳定等问题,提出一种改进的Q-learning算法。在状态初始化时引入人工势场法,使得越靠近目标位置状态值越大,从而引导智能体朝...
关键词:强化学习 人工势场 贪婪策略 移动机器人 路径规划 
改进强化学习算法的UAV室内三维航迹规划被引量:3
《计算机工程与应用》2021年第16期175-181,共7页张俊 朱庆伟 严俊杰 温波 
国家自然科学基金(51674195)。
随着室内导航定位技术的兴起,无人机(Unmanned Aerial Vehicle,UAV)技术在室内环境中的应用得到前所未有的发展,对无人机航迹规划能力提出了更高的要求。由于室内环境空间较为复杂,且现有的强化学习算法收敛速度慢,提出一种基于强化学...
关键词:航迹规划 目标方向 主要障碍物和围绕点(MO-SP) 无人机(UAV) 强化学习 
基于平均奖赏强化学习算法的零阶分类元系统被引量:1
《计算机工程与应用》2016年第21期14-20,48,共8页臧兆祥 李昭 王俊英 但志平 
国家自然科学基金(No.61502274);湖北省自然科学基金(No.2015CFB336;No.2014CFC1144;No.2015CFA025);三峡大学水电工程智能视觉监测湖北省重点实验室开放基金(No.2015KLA08;No.2014KLA08);三峡大学人才科研启动基金(No.KJ2013B064;No.KJ2013B063)
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的...
关键词:平均奖赏 强化学习 R-学习算法 学习分类元系统(LCS) 零阶分类元系统(ZCS) 多步学习问题 
并行强化学习算法及其应用研究被引量:7
《计算机工程与应用》2009年第34期25-28,52,共5页孟伟 韩学东 
国家"十一五"科技支撑计划重大项目资助No.2006BAD03A02~~
强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一。为了提高强化学习的效率,提出了一种并行强化学习算法。多个同时学习,在各自学习一定周期后,利用D-S证据利用对学习结果进行融合,然后在融合结果的...
关键词:并行算法 强化学习 Q-学习 D—S证据理论 路径规划 
基于最小二乘的Q(λ)强化学习算法
《计算机工程与应用》2008年第34期47-50,共4页陈圣磊 李卫红 姚娟 
江苏省高校自然科学基础研究项目No.07KJD520092~~
通过分析经典的Q(λ)学习算法所存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态-动作对值函数的最小二乘逼近模型,推导了该逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了快速而实用的...
关键词:强化学习 Q(λ)学习 函数逼近 最小二乘 倒立摆 
检索报告 对象比较 聚类工具 使用帮助 返回顶部