激励学习算法

作品数:7被引量:13H指数:2
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:陈焕文谢丽娟殷苌茗谢建平谢丽娟更多>>
相关机构:长沙电力学院长沙理工大学长沙交通学院华中科技大学更多>>
相关期刊:《计算机工程与应用》《管理学报》《计算机技术与发展》《计算机研究与发展》更多>>
相关基金:国家自然科学基金湖北省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-7
视图:
排序:
企业员工复杂适应行为的模拟被引量:2
《管理学报》2007年第1期89-93,共5页胡斌 王志明 
国家自然科学基金资助项目(70271029);湖北省自然科学基金资助项目(2004ABA069)
基于复杂适应性系统理论,利用SWARM平台开发了基于多主体的群体行为模拟系统,应用激励学习算法和遗传算法实现员工在模拟中的学习能力与适应能力。用元胞自动机理论模拟员工的行为,并建立了群体系统模型,模型中的各个主体具有其自身的...
关键词:复杂适应系统 群体行为 元胞自动机 激励学习算法 遗传算法 
一类基于启发式搜索的激励学习算法被引量:2
《计算机技术与发展》2006年第8期41-43,共3页唐中勇 付强 卓佳 陈焕文 
激励学习已被证明是在控制领域中一种可行的新方法。相比其他的方法,它能较好地处理未知环境问题,但它仍然不是一种有效的方法。幸运的是,在现实世界中,智能体总是会有一些环境的先验知识,这些能形成启发式信息。启发式搜索是一种常用...
关键词:启发式搜索 激励学习 启发式SARSA 
U-Clustering:基于效用聚类的激励学习算法
《计算机工程与应用》2005年第26期37-42,74,共7页陈焕文 殷苌茗 谢丽娟 
国家自然科学基金(编号:60075019)资助
提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为...
关键词:激励学习 效用聚类 部分可观测Markov决策过程 
求解POMDP的动态合并激励学习算法被引量:1
《计算机工程》2005年第22期4-6,148,共4页殷苌茗 王汉兴 陈焕文 谢丽娟 
国家自然科学基金资助项目(60075019)
把POMDP作为激励学习(ReinforcementLearning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决。该文基于这样的背景,在...
关键词:部分可观测Markov决策过程 激励学习 动态合并 信度状态 
基于每阶段平均费用最优的激励学习算法被引量:3
《计算机应用》2002年第4期25-27,共3页殷苌茗 陈焕文 谢丽娟 
国家自然科学基金 (60 0 750 1 9)
文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优...
关键词:Q学习 最优平均费用函数 Bellman方程 智能体 激励学习算法 人工智能 
平均奖赏MDP的在策略无模型激励学习算法
《计算机工程与科学》2001年第2期66-69,共4页陈焕文 谢丽娟 
本文以随机逼近的形式 ,提出了一些用于求解平均奖赏 Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功应用于折扣奖赏 MDP的 SARSA(λ)类算法相似。为比较这些新算法的性能 ,本文还给出了一些初步的实验结果。
关键词:激励学习 MARKOV决策过程 平均奖赏 折扣奖赏 人工智能 
一个因素化SARSA(λ)激励学习算法被引量:8
《计算机研究与发展》2001年第1期88-92,共5页陈焕文 谢建平 谢丽娟 
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问...
关键词:激励学习 状态聚类 MDPs SARSA(λ)学习 
检索报告 对象比较 聚类工具 使用帮助 返回顶部