互联网侨情信息采集系统设计与实现  被引量:6

Design and Implementation of Internet Information Acquisition System on Overseas Chinese

在线阅读下载全文

作  者:许鑫[1] 黄仲清[1] 邓三鸿[2] 

机构地区:[1]华东师范大学信息学系,上海200241 [2]南京大学信息管理系,南京210093

出  处:《现代图书情报技术》2010年第7期95-101,共7页New Technology of Library and Information Service

基  金:国务院侨务办公室课题项目"网络侨情智能服务平台"(项目编号:GQBQ2009052);教育部人文社会科学研究项目"互联网舆情信息分析与管理机制研究"(项目编号:08JC870003);上海市社会科学规划课题"政务公开信息的网络舆情反馈研究"(项目编号:2009ETQ001)的研究成果之一

摘  要:采用通用搜索引擎与垂直搜索引擎相结合的互联网主题信息采集策略,提出多种防屏蔽技术相结合的网络采集防屏蔽解决方案,改进一种基于文本密度的网页正文抽取方法,利用基于分词的向量空间模型和余弦夹角公式实现基于内容的标题去重,并设计一个面向侨情的互联网主题信息采集系统。This paper proposes an anti -shielding solution integrated with different technologies to avoid shielding, improves Web content extraction based on text density, adopts eliminating duplication technology based on VSM and cosine angle formula, and develops a system of the Internet subject acquisition system on overseas Chinese.

关 键 词:互联网信息 信息采集 正文抽取 侨情 

分 类 号:G354[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象