强化学习算法

作品数:313被引量:809H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:俞扬周志华钱丽萍黄亮吴远更多>>
相关机构:东南大学北京邮电大学清华大学电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机工程x
条 记 录,以下是1-5
视图:
排序:
基于因果掩码的因果强化学习算法
《计算机工程》2025年第4期66-74,共9页黄思扬 蔡瑞初 乔杰 郝志峰 
国家自然科学基金(61876043,61976052,62206064);科技创新2030—“新一代人工智能”重大项目(2021ZD0111501);国家优秀青年科学基金(62122022)。
针对序列上连续决策问题,诸如故障告警根因定位问题,强化学习(RL)已经成为一种重要的解决方法,但现有强化学习方法存在样本效率低、探索成本高昂等问题,阻碍了其广泛应用。研究表明,引入因果知识为提升强化学习智能体的决策可解释性和...
关键词:强化学习 因果发现 因果强化学习 因果掩码 策略学习 
一种联合边缘服务器部署与服务放置的方法
《计算机工程》2024年第10期266-280,共15页张俊娜 韩超臣 陈家伟 赵晓焱 袁培燕 
科技创新2030—"新一代人工智能"重大项目(2022ZD0118502);国家自然科学基金(62072159);河南省科技攻关资助项目(232102211061,222102210011)。
边缘计算(EC)在靠近用户的网络边缘部署边缘服务器(ES),并将服务放置在ES上,从而可以满足用户的服务需求。独立研究ES部署和服务放置问题的成果已有很多,但两者存在高度耦合关系。考虑到EC系统的收益,有必要提供付费服务,使得EC系统处...
关键词:边缘计算 边缘服务器部署 服务放置 K-MEANS聚类算法 多智能体强化学习算法 
非参数化近似策略迭代并行强化学习算法被引量:2
《计算机工程》2018年第11期313-320,共8页季挺 张华 
国家高技术研究发展计划(SS2013AA041003)
针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性逼近结构设计强化学习单元,然后采用以样本空间完全覆盖为目...
关键词:并行强化学习 非参数化 策略迭代 K均值聚类 倒立摆 
Job-shop排序问题的遗传强化学习算法被引量:2
《计算机工程》2009年第16期25-28,共4页潘燕春 周泓 
国家自然科学基金资助项目(70771003;70521001)
针对Job-shop排序问题的复杂性,提出一种遗传强化学习算法对其求解。通过引入多个随机变量,把Job-shop排序问题转换成多阶段决策问题,通过仿真手段构建作业排序问题模型环境,求取系统性能指标并保证解的可行性。设计一个多智能体Q-Learn...
关键词:遗传强化学习 Job—shop排序 多阶段决策 仿真 
多步截断优先扫描强化学习算法
《计算机工程》2005年第11期13-15,共3页李春贵 
广西自然科学基金资助项目(桂科自0481016);广西工学院博士基金资助项目
研究了优先扫描的强化学习方法,通过定义新的迹,把多步截断即时差分学习用于集成规划的优先扫描强化学习,用多步截断即时差分来定义扫描优先权,提出一种改进的优先扫描强化学习算法并进行仿真实验,实验结果表明,新算法的学习效率有明显...
关键词:强化学习 优先扫描 多步截断 MARKOV过程 
检索报告 对象比较 聚类工具 使用帮助 返回顶部