基于机器学习模型的HSE审核短文本分类技术研究  被引量:1

Research on Classification Technology of HSE Audit Short Text based on Machine Learning Model

在线阅读下载全文

作  者:王梦涵 贺辉宗 厉建祥 贺伟东 李绪延 辛一男 石秀丽[3] Wang Menghan;He Huizong;Li Jianxiang;He Weidong;Li Xuyan;Xin Yinan;Shi Xiuli(SINOPEC Research Institute of Safety Engineering Co.,Ltd.,Shandong,Qingdao,266104;SINOPEC Management System Certification(Qingdao)Co.,Ltd.,Shandong,Qingdao,266071;SINOPEC Marketing Beijing Company,Beijing,100022)

机构地区:[1]中石化安全工程研究院有限公司,山东青岛266104 [2]中石化管理体系认证(青岛)有限公司,山东青岛266071 [3]中国石化北京石油分公司,北京100022

出  处:《安全、健康和环境》2022年第12期18-23,共6页Safety Health & Environment

基  金:中国石油化工股份有限公司炼油事业部项目(CLY22047),炼化企业HSE管理体系审核平台开发与应用。

摘  要:HSE管理体系审核不符合项文本语义关系复杂,包含专业术语及缩略语,且同一不符合项往往具有多个分类标签,分类通常依赖人工分析,处理效率较低。针对此问题,利用自然语言处理技术,研究体系审核不符合项文本自动分类方法,准确进行文本分类和识别。根据业务和管理流程梳理审核不符合项分类关键词标签,划分四级结构,选取某石化公司HSE管理体系信息化审核系统不符合项数据作为初始语料库,构建辅助分类规则与专业词典,优化关键词提取算法,对比分析多种机器学习分类模型,优选最佳模型,取得了较好的分类效果。Using the information audit data and natural language processing technology, this paper studied the text classification method of non-conformance items in system audit. According to the business and management process, a keyword tag system for audit nonconformance items was established. The problem database of information audit system of HSE management system of a petrochemical company was selected as the initial corpus, and the tag system was divided into four layers as classification categories. Constructing auxiliary classification rules, were used respectively to optimize keywords calculation method, methods of building professional dictionaries, less settlement system audit nonconformities database sample size, more labels, sample characteristics is not obvious, and contrast analysis of the logistic regression, polynomial naive bayes and support vector machine model of the effect of text categorization.

关 键 词:HSE 管理体系 审核 文本分类 机器学习 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象