基于模板法的网页英语试卷自动抽取技术的研究  被引量:1

A Novel Method to Extract English Examination Papers from Web Pages Based on Template

在线阅读下载全文

作  者:熊惠荟[1] 欧阳君[1] 

机构地区:[1]华中科技大学信息存储和薄膜技术研究所,武汉430074

出  处:《计算机与数字工程》2009年第4期50-52,共3页Computer & Digital Engineering

摘  要:为解决在线考试系统中建立海量数据库的问题,采用基于模板法的Web信息抽取方法,提取相似网页中的正文内容。并根据包含英文试卷的网页特点,制定正文抽取规则,最终可获得完整的英语试卷及其答案。实验结果表明,该方法具有较高的准确率和提取速度。In order to solve the problems of building massive database in on-line examination system, a novel method to extract English examination papers from similar web pages based on template was proposed in this paper. The extraction rules were formulated according to the features of web pages including English examination papers. At last, full papers and answers could be obtained. Experiments indicate that the accuracy and extraction speed reach a high level.

关 键 词:WEB 信息抽取 DOM抽取规则 模板 

分 类 号:TP399[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象