强化学习算法

作品数:313被引量:809H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:俞扬周志华钱丽萍黄亮吴远更多>>
相关机构:东南大学北京邮电大学清华大学电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机科学x
条 记 录,以下是1-10
视图:
排序:
基于不确定性权重的保守Q学习离线强化学习算法被引量:1
《计算机科学》2024年第9期265-272,共8页王天久 刘全 乌兰 
国家自然科学基金(61772355,61702055,61876217,62176175);新疆维吾尔自治区自然科学基金(2022D01A238);江苏高校优势学科建设工程资助项目。
离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从...
关键词:离线强化学习 深度强化学习 强化学习 保守Q学习 不确定性 
基于深度确定性策略梯度与注意力Critic的多智能体协同清障算法被引量:1
《计算机科学》2024年第7期319-326,共8页王宪伟 冯翔 虞慧群 
国家自然科学基金面上项目(62276097);国家自然科学基金重点项目(62136003);国家重点研发计划(2020YFB1711700);上海市经信委“信息化发展专项资金”(XX-XXFZ-02-20-2463);上海市科技创新行动计划(21002411000)。
动态障碍物一直是阻碍智能体自主导航发展的关键因素,而躲避障碍物和清理障碍物是两种解决动态障碍物问题的有效方法。近年来,多智能体躲避动态障碍物(避障)问题受到了广大学者的关注,优秀的多智能体避障算法纷纷涌现。然而,多智能体清...
关键词:强化学习算法 马尔可夫决策过程 多智能体协同控制 动态障碍物清除 注意力机制 
基于智能规划的多智能体强化学习算法被引量:1
《计算机科学》2024年第5期179-192,共14页辛沅霞 华道阳 张犁 
目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案...
关键词:多智能体强化学习 智能规划 启发式搜索 探索效率 
基于随机加权三重Q学习的异策略最大熵强化学习算法被引量:2
《计算机科学》2022年第6期335-341,共7页范静宇 刘全 
国家自然科学基金(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业部分(SYG201422);江苏省高校优势学科建设工程资助项目。
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家...
关键词:Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 软行动者—评论家算法 
基于自适应调节策略熵的元强化学习算法被引量:4
《计算机科学》2021年第6期168-174,共7页陆嘉猷 凌兴宏 刘全 朱斐 
基于云计算的苏州智能公交系统数据挖掘及应用研究(N311800117);江苏高校优势学科建设工程资助项目。
传统的深度强化学习方法依赖大量的经验样本并且难以适应新任务。元强化学习通过从以往的训练任务中提取先验知识,为智能体快速适应新任务提供了一种有效的方法。基于最大熵强化学习框架的元深度强化学习通过最大化期望奖赏和最大化策...
关键词:元学习 强化学习 最大熵 
一种基于生成对抗网络的强化学习算法被引量:11
《计算机科学》2019年第10期265-272,共8页陈建平 邹锋 刘全 吴宏杰 胡伏原 傅启明 
国家自然科学基金项目(61502329,61772357,61750110519,61772355,61702055,61672371,61602334,61472267);江苏省自然科学基金项目(13KJB520020);江苏省重点研发计划项目(BE2017663);江苏省高校自然科学研究项目(13KJB520020);十三五省重点学科(20168765);航空基金(20151996016);苏州市应用基础研究计划工业部分(SYG201422)资助
针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用...
关键词:强化学习 深度学习 经验样本 生成对抗网络 
基于TD(λ)的自然梯度强化学习算法被引量:2
《计算机科学》2010年第12期186-189,共4页陈圣磊 谷瑞军 陈耿 薛晖 
国家自然科学基金项目(70971067;60905002);江苏省高校自然科学重大基础研究项目(08KJA520001);江苏省六大人才高峰项目(2007148)资助
近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法。TD(λ)中的资格迹使学习经验的传播更加高效...
关键词:策略梯度 自然梯度 TD(λ) 资格迹 
多主体撮合交易系统的设计与实现被引量:1
《计算机科学》2006年第1期124-126,共3页唐亮贵 钟增胜 程代杰 
重庆市重点科技攻关资助项目(7220-B-12);重庆市自然科学基金(CSTC;2004BB2167)。
研究了电子商务交易模型的实现机制,设计了基于 Multi-Agent 的电子商务交易市场的组织结构,在基于Multi-Agent 的撮合交易系统中,把整个交易过程看成一个动态的交互过程,体现了 Multi—Agent 系统的动态特性,同时引入强化学习算法对竞...
关键词:MULTI-AGENT系统 撮合 动态竞标 交易系统 多主体 MULTI-AGENT MultiAgent系统 设计 强化学习算法 交易模型 
强化学习算法中启发式回报函数的设计及其收敛性分析被引量:13
《计算机科学》2005年第3期190-193,共4页魏英姿  赵明扬  
中国科学院先进制造基地创新基金(F010120);973计划课题(2002CB312200)
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
关键词:强化学习算法 启发式回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能 
多Agent系统中强化学习的研究现状和发展趋势被引量:12
《计算机科学》2004年第3期23-27,共5页赵志宏 高阳 骆斌 陈世福 
国家自然科学基金(项目编号:60003010;69905001)
本文对有关强化学习及其在多Agent系统中的应用等方面的研究现状、关键技术、问题和发展趋势进行了综述和讨论,试图给出强化学习目前研究的重点和发展方向。主要内容包括:(1)强化学习的框架结构;(2)几个有代表性的强化学习方法;(3)多Ag...
关键词:人工智能 多AGENT系统 元对策理论 强化学习算法 POMDP模型 
检索报告 对象比较 聚类工具 使用帮助 返回顶部