检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华中师范大学信息管理系,武汉430079 [2]武汉大学软件学院,武汉430072 [3]武汉大学数学与统计学院,武汉430072
出 处:《现代图书情报技术》2009年第12期52-56,共5页New Technology of Library and Information Service
基 金:国家自科青年基金项目"反剽窃实现下的相似信息传播动力学"(项目编号:60803080);教育部人文社会科学研究青年项目"反剽窃理论与技术研究"(项目编号:08JC870010)的研究成果之一
摘 要:提出基于特征定位边界预测的Web主题型页面的采集方法,以达到高速抽取互联网档案有效内容的目的。开发ROST CM、ROST TextExtractor两个软件工具构建训练集并进行测试。理论和实验表明,本算法适用于中文简体、繁体、英文网页,能够很好地适应新闻以及博客类Web档案的管理方式。This paper raises a method of Web pages extracting which is based on feature orienting boarder forecast for extracting the Web archive effective content in high - speed. Two tools named ROST CM and ROST Text Extractor, is developed to build the training data set and test the algorithm. Theory and experiment show that the algorithm is suitable for Simplified Chinese, Traditional Chinese and English Web pages, and can be well adapted to news and blog Web archive management.
关 键 词:Web档案 档案采集 正文抽取 信息抽取 网页分析
分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.169