文锋

作品数:7被引量:25H指数:3
导出分析报告
供职机构:中国科学技术大学信息科学技术学院自动化系更多>>
发文主题:强化学习方法LQRK-均值聚类算法神经网络TD更多>>
发文领域:自动化与计算机技术理学更多>>
发文期刊:《仪表技术与传感器》《计算机仿真》《模式识别与人工智能》《控制与决策》更多>>
所获基金:国家自然科学基金面向21世纪教育振兴行动计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-7
视图:
排序:
基于自适应评价的非线性系统神经网络控制被引量:4
《控制与决策》2007年第7期765-768,773,共5页陈宗海 文锋 王智灵 
国家自然科学基金项目(60575033).
针对一类非线性系统,提出了一种自适应评价方法.该方法可以控制系统输出对参考信号进行跟踪,其评价函数可直接解析求出.该方法只需一个动作网络用于产生控制动作,并且方法中的网络权值初始化可随机选取.使用Lyapunov方法对整个系统的动...
关键词:自适应评价 神经网络 LYAPUNOV方法 强化学习 
基于复杂过程简化模型的DHP学习控制被引量:2
《控制与决策》2006年第10期1087-1091,共5页陈宗海 文锋 
国家自然科学基金项目(60575033)
提出一种基于简化模型的DHP(Dual Heuristic Programming)方法的学习控制,避免了标准DHP方法需要被控对象的精确模型来求得对于状态和控制动作的Jacobian矩阵,而是利用简化过程对象模型获得近似Jacob ian矩阵,实现学习控制的需要.生化...
关键词:强化学习 DHP方法 生化反应器 简化模型 
基于节点生长k-均值聚类算法的强化学习方法被引量:13
《计算机研究与发展》2006年第4期661-666,共6页陈宗海 文锋 聂建斌 吴晓曙 
国家自然科学基金项目(60575033)
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情...
关键词:强化学习 K-均值聚类算法 Sarsa学习 连续状态表示 
一种用于LQR控制问题的强化学习方法被引量:1
《模式识别与人工智能》2006年第3期406-411,共6页文锋 陈宗海 周光明 陈春林 
现有强化学习方法的收敛性分析大多针对离散状态问题,对于连续状态问题强化学习的收敛性分析仅局限于简单的 LQR 控制问题.本文对现有两种用于 LQR 问题收敛的强化学习方法进行分析,针对存在的问题,提出一种只需部分模型信息的强化学习...
关键词:强化学习 递推最小二乘 TD学习 最优控制 
连续状态自适应离散化基于K-均值聚类的强化学习方法被引量:7
《控制与决策》2006年第2期143-147,共5页文锋 陈宗海 卓睿 周光明 
国家自然科学基金项目(60575033);国家高水平大学985计划项目(KY2701)
使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算...
关键词:强化学习 K-均值聚类算法 Sarsa学习 连续状态 自适应离散化 
一种基于强化学习的控制算法研究被引量:1
《计算机仿真》2003年第11期42-44,共3页望安全 陈宗海 文锋 
"98 5"计划资助
该文在阐述了强化学习的基本机制的基础上 ,根据复杂工业过程的非线性、多变量、大时延、强耦合的特点 ,提出了一种将基于案例的学习和强化学习相结合的控制算法 ,并对重油分馏塔进行了控制效果的仿真实验 ,控制结果显示了算法能够很好...
关键词:机器学习 强化学习 控制算法 案例 Q-Learning算法 
多变量时滞对象控制的DCS实现
《仪表技术与传感器》2002年第2期25-27,30,共4页薛福珍 文锋 柏洁 刘勇 
~~
采用软件控制仪表的概念 ,在DCS中实现了基于多变量频域理论和多变量Smith预估技术的多变量时滞对象的控制 ,并成功应用于一大型啤酒发酵计算机控制系统 ,大大提高了系统的控制精度和DCS的自动化水平。
关键词:多变量时滞对象 多变量Smith预估 解耦 DCS 集散控制系统 
检索报告 对象比较 聚类工具 使用帮助 返回顶部