检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国矿业大学(北京)机电与信息工程学院,100083 [2]北京工业大学软件学院,北京市朝阳区100124 [3]北京联合大学信息学院,北京市朝阳区100101
出 处:《中国煤炭》2014年第10期84-88,共5页China Coal
基 金:自然科学基金:北京项目(PXM2014_014209_07_000009_00133510_XMCG)
摘 要:针对煤矿安全事件信息的特点,提出了基于煤矿安全事件的Web信息抽取方法,主要包括页面清洗、抽取规则生成、Web信息抽取。页面清洗作为预处理阶段,用于删除Web页面中的HTML标识、脚本、css段等无用信息;抽取规则生成是根据信息特征,定位信息在页面的位置;通过实验验证基于煤矿安全事件的Web信息抽取方法的可行性,结果表明本文提出的信息抽取方法针对中小型规模的信息抽取具有很高的准确性和有效性。In this paper,by taking into account characteristics of safety issue information in coal mining,we propose a Web information retrieval strategy based on coal mining safety issues.Our method includes cleaning webpage,generating extraction rule,and retrieving Web information.Webpage cleaning,as a pretreatment,is used for useless information such as HTML labels,scripts,and css parts in webpages.Extraction rule generation is used for finding the exact positions of the information in the webpage,which is based on the characteristics of the information.Moreover,experimental results in this paper demonstrate the possibility of Web information retrieval based on coal mining safety issues,and the experimental results further show the accuracy and efficiency of our proposed information retrieval method,in particular for small and middle scale information retrieval tasks.
关 键 词:煤矿安全事件 WEB信息抽取 页面清洗 抽取规则
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15