Q-学习算法

作品数:27被引量:134H指数:7
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:胡子婴张峰徐如燕张宇轩刘凯更多>>
相关机构:哈尔滨理工大学哈尔滨工业大学河北大学吉林大学更多>>
相关期刊:《西南交通大学学报》《上海交通大学学报》《电子技术应用》《北京理工大学学报》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划河北省教育厅青年基金中国博士后科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于近似Q-学习算法的数据驱动控制仿真被引量:2
《计算机仿真》2022年第5期344-347,379,共5页于子航 王改云 
为解决依赖受控系统数学模型而导致的数据驱动控制性能不完善,控制跟踪结果误差较大的问题,提出一种基于近似Q-学习算法的数据驱动控制方法。为使Q被充分学习,在时间轴的立即回报序列上估计训练值,因此修改确定性规则,使其采用当前Q值...
关键词:数据驱动控制 衰减值估计 非线性离散模型 伪偏导函数 
基于逐位逼近Q学习的PID参数优化方法
《电子技术与软件工程》2022年第5期122-127,共6页曹文凯 洪杰 袁也 吴怀江 姜冲 
本文在分析强化学习工作机制的基础上,提出了一种基于强化学习算法的PID参数自整定方法。通过与其他算法的对比以及控制系统的鲁棒性分析,证明该算法具有良好的收敛性,能很好的满足控制任务要求。
关键词:Q-学习算法 PID控制 自整定 性能评价指标 
基于Q-学习算法的矿井自适应OFDM调制研究被引量:1
《工矿自动化》2021年第6期109-115,共7页朱静茹 张育芝 王安义 李萍 
国家重点研发计划项目(2018YFC0808301);陕西省教育厅科研计划项目(18JK0499)。
针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自...
关键词:矿井无线通信 信道自适应调制 正交频分复用 强化学习 Q-学习算法 SARSA算法 OFDM 
基于BIM的多元数据在建筑运行节能中的探索被引量:5
《建筑电气》2021年第1期19-27,共9页杜华明 李冬梅 刘禹 王冬松 
国家重点研发计划课题,课题名称:基于BIM的绿色建筑运营优化关键技术研发,课题编号:2018YFC0705900。
以BIM模型的数据结构为基础,融合建筑设计静态数据、室内环境数据和设备运行数据,采用自适应动态规划方法,建立基于BIM的建筑-环境-运行数据多元表达模型,构建面向环境舒适度与建筑能效提升的建筑运行节能管理系统。并通过实例验证测试...
关键词:BIM 建筑节能 多元环境 运维 数据融合 边缘计算 物联网 Q-学习算法 
一种基于Q-学习算法的增量分类模型被引量:4
《计算机科学》2020年第8期171-177,共7页刘凌云 钱辉 邢红杰 董春茹 张峰 
国家自然科学基金(61672205);河北省自然科学基金面上项目(F2018201115,F2017201020);河北省教育厅青年基金(QN2017019)。
大数据时代的数据信息呈现持续性、爆炸性的增长,为机器学习算法带来了大量监督样本。然而,这对信息通常不是一次性获得的,且获得的数据标记是不准确的,这对传统的分类模型提出了挑战,而增量学习是一种重要的解决方法。但在增量学习中,...
关键词:增量学习 Q-学习 在线学习 分类 强化学习 
基于Q-学习算法的有状态网络协议模糊测试方法研究被引量:4
《电子技术应用》2020年第4期49-52,56,共5页荆琛 傅晓彤 董伟 赵云飞 
现有的有状态网络协议模糊测试技术在测试时,辅助类型报文重复交互,测试效率低,且为确保测试用例有效性,仅向协议实体输入报文类型与被测状态相对应的测试用例,导致无法发现由报文异常输入顺序所引出的协议缺陷。针对这些问题,基于Q-学...
关键词:模糊测试 漏洞挖掘 Q-学习算法 强化学习 
移动雾计算中基于强化学习的伪装攻击检测算法被引量:5
《计算机工程》2020年第1期38-44,共7页于金亮 涂山山 孟远 
国家自然科学基金(61801008);国家重点研发计划(2018YFB0803600);北京市自然科学基金(L172049);北京市教委科研计划(KM201910005025)
在移动雾计算中,雾节点与移动终端用户之间的通信容易受到伪装攻击,从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略,提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装攻击模型,在该模型下设...
关键词:Q-学习算法 物理层安全 伪装攻击 物理层密钥生成 假设检验 
基于改进Q-学习算法的多阶段群体决策模型被引量:4
《控制与决策》2019年第9期1917-1922,共6页张峰 刘凌云 郭欣欣 
国家自然科学基金项目(61672205);河北省自然科学面上基金项目(F2017201020,F2018201115);河北省教育厅青年基金项目(QN2015026,QN2017019)
多阶段群体决策问题是一类典型的动态群体决策问题,主要针对离散的确定状态下的最优群体决策问题求解.但由于现实环境面临的大部分是不确定状态空间,甚至是未知环境空间(例如状态转移概率矩阵完全未知),为了寻求具有较高共识度的多阶段...
关键词:群体决策 多阶段群体决策 强化学习 Q-学习 群体共识 不确定性 
基于有效实例的改进U树算法
《计算机工程与科学》2019年第1期185-190,共6页宋佳佳 王作为 
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来...
关键词:部分观测马尔可夫决策过程 强化学习 U-树 Q-学习算法 
电动汽车同时充电负荷优化策略及调控技术被引量:1
《科学技术创新》2017年第22期1-2,共2页王健 卢超杰 陈洪涛 王娟 
国家电网公司科技项目<适应住宅地产配电网的公共用能优化策略及关键技术研究>
环境污染与气候恶化正成为社会面临的严重问题,电动汽车不直接使用化石能源可以有效解决高污染、高排放问题,因此受到学术界和产业界越来越多的关注。然而,形成一定规模的电动汽车充放电会对现有配电网系统产生极大影响。基于规模化电...
关键词:配电网 电动汽车 优化充电 Q-学习算法 
检索报告 对象比较 聚类工具 使用帮助 返回顶部