检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李竹 傅启明[1,2] 丁正凯 刘璐 张颖 陈建平[2,3,4] Li Zhu;Fu Qiming;Ding Zhengkai;Liu Lu;Zhang Ying;Chen Jianping(School of Electronic&Information Engineering,Suzhou University of Science&Technology,Suzhou Jiangsu 215009,China;Jiangsu Provincial Key Laboratory of Intelligent Energy Saving in Buildings,Suzhou University of Science&Technology,Suzhou Jiangsu 215009,China;College of Architecture&Urban Planning,Suzhou University of Science&Technology,Suzhou Jiangsu 215009,China;Chongqing Industrial Big Data Innovation Center Co.,Ltd.,Chongqing 400707,China)
机构地区:[1]苏州科技大学电子与信息工程学院,江苏苏州215009 [2]苏州科技大学江苏省建筑智慧节能重点实验室,江苏苏州215009 [3]苏州科技大学建筑与城市规划学院,江苏苏州215009 [4]重庆工业大数据创新中心有限公司,重庆400707
出 处:《计算机应用研究》2024年第2期527-532,539,共7页Application Research of Computers
基 金:国家重点研发计划资助项目(2020YFC2006602);国家自然科学基金资助项目(62102278,62172324,61876217,61876121);江苏省高等学校自然科学研究项目(21KJA520005);江苏省重点研发计划资助项目(BE2020026);江苏省自然科学基金资助项目(BK20190942);江苏省研究生教育教学改革项目。
摘 要:住宅暖通空调系统通常耗用大量能源,同时也极大地影响居住者的热舒适性。目前,强化学习广泛应用于优化暖通空调系统,然而这一方法需要投入大量时间和数据资源。为了解决该问题,提出了一个新的基于事件驱动的马尔可夫决策过程(event-driven Markov decision process,ED-MDP)框架,并在此基础上,提出了基于事件驱动的深度确定性策略梯度(event-driven deep deterministic policy gradient,ED-DDPG)方法,通过事件触发优化控制,结合强化学习算法求解最优控制策略。实验结果显示,与基准方法相比,ED-DDPG在提升学习速度和减少决策频率方面表现出色,并在节能和维持热舒适方面取得了显著成果。经过实验验证,该方法在优化住宅暖通空调控制方面展现出强大的鲁棒性和适应性。Residential HVAC systems typically constitute a substantial portion of energy consumption and exert a significant influence on occupants’thermal comfort.At present,reinforcement learning is widely employed to optimize HVAC systems;however,this approach necessitates a substantial investment of time and data resources.To address this issue,this paper proposed a novel framework based on an event-driven Markov decision process(ED-MDP)and further introduce an event-driven deep deterministic policy gradient(ED-DDPG)method.This approach amalgamated reinforcement learning algorithms to deduce optimal control policies through event-triggered optimization.The experimental results demonstrate that ED-DDPG excels in enhancing learning speed and reducing decision frequency compared to the benchmark method.Furthermore,it attains notable accomplishments in energy conservation and sustaining thermal comfort.Following comprehensive testing and validation,the method showcases robustness and adaptability in optimizing residential HVAC control.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.138.21