基于事件驱动深度强化学习的建筑热舒适控制  

Event-driven reinforcement learning thermal comfort controlfor residential buildings

在线阅读下载全文

作  者:李竹 傅启明[1,2] 丁正凯 刘璐 张颖 陈建平[2,3,4] Li Zhu;Fu Qiming;Ding Zhengkai;Liu Lu;Zhang Ying;Chen Jianping(School of Electronic&Information Engineering,Suzhou University of Science&Technology,Suzhou Jiangsu 215009,China;Jiangsu Provincial Key Laboratory of Intelligent Energy Saving in Buildings,Suzhou University of Science&Technology,Suzhou Jiangsu 215009,China;College of Architecture&Urban Planning,Suzhou University of Science&Technology,Suzhou Jiangsu 215009,China;Chongqing Industrial Big Data Innovation Center Co.,Ltd.,Chongqing 400707,China)

机构地区:[1]苏州科技大学电子与信息工程学院,江苏苏州215009 [2]苏州科技大学江苏省建筑智慧节能重点实验室,江苏苏州215009 [3]苏州科技大学建筑与城市规划学院,江苏苏州215009 [4]重庆工业大数据创新中心有限公司,重庆400707

出  处:《计算机应用研究》2024年第2期527-532,539,共7页Application Research of Computers

基  金:国家重点研发计划资助项目(2020YFC2006602);国家自然科学基金资助项目(62102278,62172324,61876217,61876121);江苏省高等学校自然科学研究项目(21KJA520005);江苏省重点研发计划资助项目(BE2020026);江苏省自然科学基金资助项目(BK20190942);江苏省研究生教育教学改革项目。

摘  要:住宅暖通空调系统通常耗用大量能源,同时也极大地影响居住者的热舒适性。目前,强化学习广泛应用于优化暖通空调系统,然而这一方法需要投入大量时间和数据资源。为了解决该问题,提出了一个新的基于事件驱动的马尔可夫决策过程(event-driven Markov decision process,ED-MDP)框架,并在此基础上,提出了基于事件驱动的深度确定性策略梯度(event-driven deep deterministic policy gradient,ED-DDPG)方法,通过事件触发优化控制,结合强化学习算法求解最优控制策略。实验结果显示,与基准方法相比,ED-DDPG在提升学习速度和减少决策频率方面表现出色,并在节能和维持热舒适方面取得了显著成果。经过实验验证,该方法在优化住宅暖通空调控制方面展现出强大的鲁棒性和适应性。Residential HVAC systems typically constitute a substantial portion of energy consumption and exert a significant influence on occupants’thermal comfort.At present,reinforcement learning is widely employed to optimize HVAC systems;however,this approach necessitates a substantial investment of time and data resources.To address this issue,this paper proposed a novel framework based on an event-driven Markov decision process(ED-MDP)and further introduce an event-driven deep deterministic policy gradient(ED-DDPG)method.This approach amalgamated reinforcement learning algorithms to deduce optimal control policies through event-triggered optimization.The experimental results demonstrate that ED-DDPG excels in enhancing learning speed and reducing decision frequency compared to the benchmark method.Furthermore,it attains notable accomplishments in energy conservation and sustaining thermal comfort.Following comprehensive testing and validation,the method showcases robustness and adaptability in optimizing residential HVAC control.

关 键 词:强化学习 事件驱动 暖通空调 住宅建筑 热舒适 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象