杨旭东

作品数:4被引量:8H指数:2
导出分析报告
供职机构:苏州大学计算机科学与技术学院更多>>
发文主题:强化学习方法并行采样E3多AGENT并行计算更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《计算机研究与发展》《苏州大学学报(自然科学版)》《吉林大学学报(工学版)》更多>>
所获基金:江苏省高校自然科学研究项目江苏省自然科学基金国家自然科学基金教育部重点实验室基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-4
视图:
排序:
一种基于智能调度的可扩展并行强化学习方法被引量:3
《计算机研究与发展》2013年第4期843-851,共9页刘全 傅启明 杨旭东 荆玲 李瑾 李娇 
国家自然科学基金项目(61070223,61103045,60970015,61272005);江苏省自然科学基金项目(BK2009116);江苏省高校自然科学基金项目(09KJA520002,09KJB520012);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172012K04)
针对强化学习在大状态空间或连续状态空间中存在的"维数灾"问题,提出一种基于智能调度的可扩展并行强化学习方法——IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独...
关键词:强化学习 分而治之 并行计算 可扩展性 智能调度 
基于多Agent并行采样和学习经验复用的E^3算法被引量:2
《吉林大学学报(工学版)》2013年第1期135-140,共6页刘全 杨旭东 荆玲 肖飞 
国家自然科学基金项目(61070223;61103045;60970015;61170020;61272005);江苏省自然科学基金项目(BK2009116;BK2012616);江苏省高校自然科学研究项目(09KJA520002;09KJB520012);吉林大学符号计算与知识工程教育部重点实验室项目(93K172012K04)
针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优...
关键词:人工智能 强化学习 E3算法 多AGENT 并行采样 学习经验复用 
一种改进的平均奖赏强化学习方法在RoboCup训练中的应用被引量:2
《苏州大学学报(自然科学版)》2012年第2期21-26,共6页李瑾 刘全 杨旭东 杨凯 翁东良 
国家自然科学基金(61070223;61103045;60970015;61170020);江苏省自然科学基金(BK2009116);江苏省高校自然科学研究基金(09KJA520002;09KJB520012)
强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏...
关键词:平均奖赏 强化学习 Keepaway ROBOCUP 
一种基于资格迹的并行强化学习算法被引量:1
《苏州大学学报(自然科学版)》2012年第1期26-33,共8页杨旭东 刘全 李瑾 
国家自然科学基金(60873116;61070223);江苏省自然科学基金(BK2008161);江苏省高校自然科学基金(09KJA520002)
强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一.为了提高强化学习的效率,提出了一种基于资格迹的并行强化学习算法,并给出了算法实现的框架模型和一些可行的优化方法.由于使用资格迹的算法具有内在...
关键词:并行算法 强化学习 Sarsa(λ)学习 Tic-tac-toe 
检索报告 对象比较 聚类工具 使用帮助 返回顶部