基于特征定位边界预测的Web档案正文采集  被引量:5

Web Archive Content Extracted on Feature Orienting and Boarder Forecasting

在线阅读下载全文

作  者:沈劲枝[1] 寇文波[2] 田晨耕[3] 

机构地区:[1]华中师范大学信息管理系,武汉430079 [2]武汉大学软件学院,武汉430072 [3]武汉大学数学与统计学院,武汉430072

出  处:《现代图书情报技术》2009年第12期52-56,共5页New Technology of Library and Information Service

基  金:国家自科青年基金项目"反剽窃实现下的相似信息传播动力学"(项目编号:60803080);教育部人文社会科学研究青年项目"反剽窃理论与技术研究"(项目编号:08JC870010)的研究成果之一

摘  要:提出基于特征定位边界预测的Web主题型页面的采集方法,以达到高速抽取互联网档案有效内容的目的。开发ROST CM、ROST TextExtractor两个软件工具构建训练集并进行测试。理论和实验表明,本算法适用于中文简体、繁体、英文网页,能够很好地适应新闻以及博客类Web档案的管理方式。This paper raises a method of Web pages extracting which is based on feature orienting boarder forecast for extracting the Web archive effective content in high - speed. Two tools named ROST CM and ROST Text Extractor, is developed to build the training data set and test the algorithm. Theory and experiment show that the algorithm is suitable for Simplified Chinese, Traditional Chinese and English Web pages, and can be well adapted to news and blog Web archive management.

关 键 词:Web档案 档案采集 正文抽取 信息抽取 网页分析 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象