-

检索结果分析

结果分析中...
检索条件:"关键词=双深度Q网络 "
条 记 录,以下是1-10
视图:
排序:
显示条数:
基于深度Q网络的车联网安全位置路由
《无线电通信技术》2025年第1期96-105,共10页米洪 郑莹 
2021年江苏省高校“青蓝工程”培养对象优秀教学团队项目;南京交通职业技术学院无线携能通信系统优化技术研究(JZ2207)。
作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于深度Q网络的安全位置路由(Double DQN-based Secur...
关键词:车联网 位置路由 灰洞攻击 深度Q网络 动态的探索因子 
基于动作注意策略的树形DDQN目标候选区域提取方法
《电子与信息学报》2019年第3期666-673,共8页左国玉 杜婷婷 马蕾 卢佳豪 龚道雄 
国家自然科学基金(61873008);北京市自然科学基金(4182008);北京工业大学智能制造领域大科研推进计划~~
针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形深度Q网络(TDDQN)目标候选区域提取的方法,该方法将深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。...
关键词:目标检测 候选区域 树结构 深度Q网络 动作注意 
基于DQN算法的机器人手臂带电作业精准导航研究
《电网与清洁能源》2024年第11期9-15,共7页李宁 何义良 赵建辉 刘兆威 田志 
国家电网有限公司科技项目(kj2021-044)。
为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最...
关键词:带电作业 机械臂 深度强化学习 深度Q网络 精准导航 
基于改进DDQN船舶自动靠泊路径规划方法
《智能系统学报》2025年第1期73-80,共8页李康斌 朱齐丹 牟进友 菅紫婷 
国家自然科学基金项目(52171299)。
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船...
关键词:自动靠泊 路径规划 深度强化学习 深度Q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验 
VEC中基于DRL的“端-多边-云”协作计算卸载算法
《河南理工大学学报(自然科学版)》2024年第6期156-163,共8页彭维平 杨玉莹 王戈 宋成 阎俊豪 
国家重点研发计划项目(2018YFC0604502);国家自然科学基金资助项目(61872126);河南省高校青年骨干教师计划项目(2019GGJS061)。
目的为了解决车载边缘计算中用户服务质量低以及边缘节点资源不足的问题,方法结合车载边缘计算和停车边缘计算技术,提出“端-多边-云”协作计算卸载模型,并设计基于DRL的协作计算卸载与资源分配算法(cooperative computation offloading...
关键词:车载边缘计算 停车边缘计算 计算卸载 资源分配 深度Q网络 
基于深度强化学习的雷达智能决策生成算法被引量:1
《现代雷达》2022年第12期25-33,共9页赵家琛 张劲东 李梓瑜 
国家自然科学基金资助项目(62171220)。
针对雷达系统面临的干扰场景复杂多变、人工设计抗干扰策略性能难以保证以及实时性不高的问题,构建了基于深度强化学习的智能决策生成模型,设计了有针对性的动作集、状态集和奖励函数。同时提出了基于深度Q网络(DDQN)的决策网络训练算...
关键词:雷达智能决策 深度强化学习 深度Q网络 深度Q网络 
临时限速下基于强化学习的高速列车速度曲线优化被引量:2
《铁道学报》2023年第2期84-92,共9页周敏 董海荣 周学影 许伟 宁灵斌 
国家自然科学基金(61925302,U1934220,62103033);北京交通大学基本科研业务费(2021RC269)。
高速列车运行过程中受到恶劣天气、前方列车等的影响,导致线路增设临时限速,需要实时生成优化的目标速度曲线,以保障运行效率。为此,提出考虑限速信息的列车目标速度曲线优化方法。根据列车运行阶段的不同设置工况调整策略,并提出用于...
关键词:高速列车 目标速度曲线 临时限速 深度强化学习 深度Q网络 
优先状态估计的深度Q网络
《计算机工程与应用》2021年第8期78-83,共6页张鑫 张席 
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问...
关键词:强化学习 状态估计 深度Q网络 深度Q网络 
基于DDQN的电力传感网资源分配算法被引量:1
《中国电力》2023年第11期60-66,共7页朱雪琼 胡成博 杨景刚 路永玲 
国家电网有限公司科技项目(与电力传感装置融合的低功耗宽窄融合无线传感网络系统研发及应用,5108-202218280A-2-201-XG)。
电力传感网可以用于对电力网络的设备工作状态和工作环境等信息实时采集和获取,对于电力网络设施的实时监控与快速响应具有重要作用。针对系统在数据排队时延和丢包率上的特殊要求,提出了一种基于强化学习的电力传感网资源分配方案。在...
关键词:电力传感网 资源分配 马尔可夫决策过程 深度Q网络 
基于蜂窝网络的多无人机能量消耗最优化算法研究被引量:6
《通信学报》2023年第2期185-197,共13页夏景明 刘玉风 谈玲 
国家重点研发计划基金资助项目(No.2021ZD0102100);江苏省产学研基金资助项目(No.BY2022459)。
在一些复杂时变环境中,地面基站(GBS)可能无法协助处理无人机的计算任务,为此研究了一种基于数字孪生(DT)技术的移动边缘计算(MEC)蜂窝网络。考虑到多无人机效率,引入多只配备MEC服务器的高空气球(HAB)协助,在此基础上提出一个所有无人...
关键词:无人机 任务卸载 数字孪生 深度Q网络 连续凸逼近 
检索报告 对象比较 聚类工具 使用帮助 返回顶部