检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华东师范大学信息学系,上海200241 [2]南京大学信息管理系,南京210093
出 处:《现代图书情报技术》2010年第7期95-101,共7页New Technology of Library and Information Service
基 金:国务院侨务办公室课题项目"网络侨情智能服务平台"(项目编号:GQBQ2009052);教育部人文社会科学研究项目"互联网舆情信息分析与管理机制研究"(项目编号:08JC870003);上海市社会科学规划课题"政务公开信息的网络舆情反馈研究"(项目编号:2009ETQ001)的研究成果之一
摘 要:采用通用搜索引擎与垂直搜索引擎相结合的互联网主题信息采集策略,提出多种防屏蔽技术相结合的网络采集防屏蔽解决方案,改进一种基于文本密度的网页正文抽取方法,利用基于分词的向量空间模型和余弦夹角公式实现基于内容的标题去重,并设计一个面向侨情的互联网主题信息采集系统。This paper proposes an anti -shielding solution integrated with different technologies to avoid shielding, improves Web content extraction based on text density, adopts eliminating duplication technology based on VSM and cosine angle formula, and develops a system of the Internet subject acquisition system on overseas Chinese.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117