MARKOV决策过程

作品数:88被引量:263H指数:9
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:殷保群奚宏生陈焕文江琦徐昕更多>>
相关机构:中国科学技术大学国防科学技术大学上海交通大学合肥工业大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金安徽省自然科学基金国家高技术研究发展计划广东省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于强化学习的人员轮休调度方法
《计算机集成制造系统》2024年第10期3566-3577,共12页李甜甜 陈德胜 曹斌 
浙江省自然科学基金资助项目(LQ21F020019);浙江省重点研发计划资助项目(2022C01145)。
针对传统调度方法求解效果差、效率低、轮休约束表达不准确的问题,首次提出一种基于强化学习的人员轮休调度方法。该方法将轮休调度过程构建为Markov决策过程,利用动作掩码方法实现轮休约束,通过深度Q网络(DQN)方法对轮休调度的策略进...
关键词:轮休调度 强化学习 MARKOV决策过程 深度Q网络 动作掩码 
基于深度强化学习的多自动导引车运动规划被引量:1
《计算机集成制造系统》2024年第2期708-716,共9页孙辉 袁维 
2016年智能制造综合标准化资助项目(工信部联装[2016]213号)。
为解决移动机器人仓储系统中的多自动导引车(AGV)无冲突运动规划问题,建立了Markov决策过程模型,提出一种新的基于深度Q网络(DQN)的求解方法。将AGV的位置作为输入信息,利用DQN估计该状态下采取每个动作所能获得的最大期望累计奖励,并...
关键词:多自动导引车 运动规划 MARKOV决策过程 深度Q网络 深度Q学习 
非完全信息下协作式入侵检测系统检测库配置研究
《高技术通讯》2024年第2期162-172,共11页石月楼 杨旦杰 冯宇 李永强 
国家自然科学基金(61973276)资助项目。
本文研究了有限时间下非完全信息协作式入侵检测系统(IDS)的检测库配置。针对各入侵检测系统面对不同类型攻击时的最优检测库的配置以及检测库分配的矛盾,提出了一种双层检测库配置方法。第1层研究的是各攻击者的策略制定以及对应入侵...
关键词:非完全信息博弈 MARKOV决策过程 入侵检测系统(IDS) 资源分配 网络安全 
基于SAC算法的无人机自主空战决策算法被引量:9
《指挥控制与仿真》2022年第5期24-30,共7页李波 白双霞 孟波波 梁诗阳 李曾琳 
国家自然科学基金(62003267)。
针对无人机在空战过程中的自主决策问题,以无人机1v1攻防为背景提出了无人机近距空战模型。采用Markov决策过程建立了无人机自主机动模型,提出基于Soft Actor Critic (SAC)算法的无人机自主空战决策算法,以无人机空战态势数据作为输入,...
关键词:无人机 空战决策算法 Soft Actor Critic MARKOV决策过程 
面向时变需求的多等级急诊患者入院控制
《上海交通大学学报》2022年第8期1067-1077,共11页徐捷 王子翔 刘玉欣 刘冉 杨之涛 
国家社会科学基金资助项目(19BGL245)。
建立患者准入控制的Markov决策过程(MDP)模型,并基于均匀化方法对该模型进行拓展,实现逐时段的实时决策过程.拓展经典MDP迭代求解方法,提出双向迭代算法、逐时段策略迭代算法等方法对模型求解.以上海某大型医院抢救室为例,数值实验表明...
关键词:患者入院控制 MARKOV决策过程 均匀化方法 时变需求 
基于约束Markov决策过程的初至自动识别技术被引量:3
《地球物理学报》2021年第6期2050-2060,共11页罗飞 王华忠 
国家重点研发计划深海关键技术与装备重点专项(2019YFC0312004);国家重点研发计划变革性技术关键科学问题重点专项(2018YFA0702503);国家自然科学基金(41774126,42074143);上海市浦江人才计划资助(20PJ1413500);南方海洋科学与工程广东省实验室(湛江)资助项目(ZJW-2019-04);中国石化地球物理重点实验室基金(33550006-19-FW0399-0041,33550006-20-ZC0699-0011)资助.
随着地震数据采集技术的进步,地震数据量日益增加,全自动、高精度的地震初至走时拾取技术受到了更加广泛的关注.本文将初至拾取看作特征空间内带约束的Markov决策过程,在奖励函数空间,按一定准则全局寻优获得积累奖励值最大的路径,从而...
关键词:机器学习 特征属性 空间结构约束 MARKOV决策过程 初至自动拾取 
一种合作Markov决策系统被引量:1
《计算机技术与发展》2020年第12期8-14,共7页雷莹 许道云 
国家自然科学基金(61762019,61862051)。
在机器学习中,强化学习是一个重要的研究领域。Markov决策过程(MDP)是强化学习的重要基础,在一般的Markov决策系统中,只考虑一个智能体的学习演化。但目前诸多问题中只考虑单个智能体的学习演化有一定的局限性,越来越多的应用中都涉及...
关键词:强化学习 智能体 联合Markov决策过程 最优策略对 算法 
基于深度强化学习的UAV航路自主引导机动控制决策算法被引量:14
《系统工程与电子技术》2020年第7期1567-1574,共8页张堃 李珂 时昊天 张振冲 刘泽坤 
中国国家留学基金委项目(201806295012);光电控制技术重点实验室基金(6142504190105);西北工业大学硕士研究生创意创新种子基金(ZZ2019021);创新人才基金(2017KJXX-15);航空科学基金(20155153034)资助课题。
针对无人机(unmanned aerial vehicle,UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控...
关键词:自主引导 机动控制决策 MARKOV决策过程 深度确定性策略梯度法 深度强化学习 
结构元理论下的模糊Markov决策过程被引量:1
《辽宁工程技术大学学报(自然科学版)》2020年第2期180-183,共4页任思行 郭嗣琮 曾繁慧 
辽宁省教育厅科学经费项目(LJ2019JL019).
为解决模糊Markov决策过程中λ-截集计算的复杂性问题,利用模糊结构元理论建模及求解.对于状态模糊情况,分别给出全部状态模糊与部分状态模糊的模糊Markov过程定义,模糊结构元建模及优化决策;给出具有模糊转移矩阵的Markov过程定义,结...
关键词:模糊结构元 模糊Markov 模糊状态 模糊转移矩阵 结构元加权排序 
结构化道路中动态车辆的轨迹预测被引量:3
《汽车安全与节能学报》2019年第4期413-422,共10页谢辉 高斌 熊硕 王悦 
天津市科技计划项目(17ZXRGGX00140)
为提高结构化道路中自动驾驶汽车周边动态车辆运动轨迹预测的准确率,提出了基于交通场景特征辨识的轨迹预测策略。基于激光雷达与组合导航系统实现周边车辆的检测跟踪与定位,通过驾驶意图估计模型判断车辆驾驶行为并对交通场景分类,对...
关键词:自动驾驶汽车 轨迹预测 驾驶意图估计 MARKOV决策过程 
检索报告 对象比较 聚类工具 使用帮助 返回顶部