基于煤矿安全事件的Web信息抽取技术研究  

Research on Web information extraction technology based on coal safety incidents

在线阅读下载全文

作  者:郭晓黎[1] 刘泽伟[2] 刘瑞祥[3] 

机构地区:[1]中国矿业大学(北京)机电与信息工程学院,100083 [2]北京工业大学软件学院,北京市朝阳区100124 [3]北京联合大学信息学院,北京市朝阳区100101

出  处:《中国煤炭》2014年第10期84-88,共5页China Coal

基  金:自然科学基金:北京项目(PXM2014_014209_07_000009_00133510_XMCG)

摘  要:针对煤矿安全事件信息的特点,提出了基于煤矿安全事件的Web信息抽取方法,主要包括页面清洗、抽取规则生成、Web信息抽取。页面清洗作为预处理阶段,用于删除Web页面中的HTML标识、脚本、css段等无用信息;抽取规则生成是根据信息特征,定位信息在页面的位置;通过实验验证基于煤矿安全事件的Web信息抽取方法的可行性,结果表明本文提出的信息抽取方法针对中小型规模的信息抽取具有很高的准确性和有效性。In this paper,by taking into account characteristics of safety issue information in coal mining,we propose a Web information retrieval strategy based on coal mining safety issues.Our method includes cleaning webpage,generating extraction rule,and retrieving Web information.Webpage cleaning,as a pretreatment,is used for useless information such as HTML labels,scripts,and css parts in webpages.Extraction rule generation is used for finding the exact positions of the information in the webpage,which is based on the characteristics of the information.Moreover,experimental results in this paper demonstrate the possibility of Web information retrieval based on coal mining safety issues,and the experimental results further show the accuracy and efficiency of our proposed information retrieval method,in particular for small and middle scale information retrieval tasks.

关 键 词:煤矿安全事件 WEB信息抽取 页面清洗 抽取规则 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象