-

检索结果分析

结果分析中...
检索条件:"关键词=行动器评判器算法 "
条 记 录,以下是1-1
视图:
排序:
显示条数:
一种采用模型学习和经验回放加速的正则化自然行动评判算法被引量:4
《计算机学报》2019年第3期532-553,共22页钟珊 刘全 傅启明 龚声蓉 董虎胜 
国家自然科学基金项目(61772355;61702055;61303108;61373094;61472262;61502323;61502329);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(13KJB520020);江苏省高校自然科学研究面上项目(16KJD520001);江苏省科技计划项目(BK2015260);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04;93K172017K18);苏州市应用基础研究计划工业部分(SYG201422;SYG201308)资助~~
行动评判(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized...
关键词:行动评判算法 模型学习 经验回放 最优策略 正则化 自然梯度 
检索报告 对象比较 聚类工具 使用帮助 返回顶部