基于自适应探索改进的深度增强学习算法被引量：2

A Deep Reinforcement Learning Algorithm Based on Adaptive Exploration

机构地区：[1]中国电子科技集团公司第二十八研究所,江苏南京210007

出　　处：《微电子学与计算机》2016年第6期139-142,共4页Microelectronics & Computer

摘　　要：针对深度增强学习算法中探索开发策略的平衡问题,提出一种基于VDBE(Value-Difference Based Exploration)扩展的自适应探索改进算法.该算法依赖于值函数差异提出一种基于状态的探索控制策略,以达到在初始学习阶段不熟悉周围环境时agent采取积极探索策略,而随着深入学习和周边环境的熟悉,agent逐渐降低探索率的自适应探索/开发平衡的理想行为状态.To find a balance between exploration and exploitation,this paper proposes a VDBE（Value-Difference Based Exploration）based algorithm.The algorithm proposes a state-based control strategy depends on the value difference.In order to achieve the ideal exploration/exploitation behavior state,agent takes positive actions to explore environments in the initial stage of learning when agent is unfamiliar with surrounding environment.As learning time goes on and agent is more familiar with surrounding,it gradually reduces the exploration rate.

关键词：深度增强学习探索/开发平衡 VDBE 自适应控制

分类号：TP31[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于自适应探索改进的深度增强学习算法被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于自适应探索改进的深度增强学习算法 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于自适应探索改进的深度增强学习算法被引量：2