检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨连报[1] 李平[2] 薛蕊 马小宁[2] 吴艳华[2] 邹丹[2]
机构地区:[1]中国铁道科学研究院,北京100081 [2]中国铁道科学研究院电子计算技术研究所,北京100081
出 处:《铁道学报》2018年第2期59-66,共8页Journal of the China Railway Society
基 金:中国铁道科学研究院院基金重大课题(2017YJ005;2017YJ006)
摘 要:针对铁路信号设备不平衡故障文本数据,提出基于文本挖掘的铁路信号设备故障智能分类模型。采用TF-IDF模型实现电务信号设备故障文本的特征提取并转换为向量,基于Voting的方式实现多分类器集成学习分类。该模型利用SVM-SMOTE算法对TF-IDF转换后的小类别文本向量数据进行随机生成,采用逻辑回归、朴素贝叶斯、SVM等基分类器和GBDT、随机森林集成分类器对平衡后的数据进行分类,考虑不同分类器的适用特点,通过Voting方式进行多分类器集成学习。通过对某铁路局2012—2016年铁路信号设备故障文本数据进行试验分析,表明该模型可使故障分类的准确率、召回率和F-score均得到显著提升。In this paper,an intelligent fault classification model for railway signal equipment based on text mining was proposed for the imbalanced fault text data of railway signal equipment.The TF-IDF model was used to realize the feature extraction and vector transformation of the fault text of the electrical signal equipment and to realize the integrated learning classification of multi-classifier based on the Voting method.The model firstly used the SVM-SMOTE algorithm to generate TF-IDF converted disequilibrium of text vector data randomly,then used some base classifiers(logistic regression,naive Bayesian,SVM,etc.)and some integrated classifiers(GBDT and random forests)to classify the balanced data,and finally brings up a multiple classifier ensemble learning by way of the Voting method,considering the characteristics of different classifiers.The analysis of the data of railway signal equipment failure text of a railway bureau from 2012 to 2016 shows that the model can improve the accuracy,recall rate and the F-score of fault classification.
关 键 词:铁路信号设备 故障分类 不平衡文本数据 SMOTE 基分类器 集成分类器 集成学习
分 类 号:U284[交通运输工程—交通信息工程及控制]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222