检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京理工大学经济管理学院,江苏南京210094 [2]安全预警与应急联动技术湖北省协同创新中心,湖北武汉430070
出 处:《情报理论与实践》2016年第4期133-137,共5页Information Studies:Theory & Application
基 金:国家自然科学基金项目"突发事件网络舆情演变过程中的人群仿真研究"(项目编号:71273132);国家自然科学基金项目"基于情感倾向性分析的网络舆情意见领袖识别与对策研究"(项目编号:71303111);中央高校基本科研业务专项资金项目(项目编号:30920140111006);江苏省"青蓝工程"〔2012〕39号项目;江苏高校优势学科建设工程资助的研究成果
摘 要:[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。[Purpose] The main information of web page is usually hidden in a large number of irrelevant structures and content,which cannot make users get the main content quickly and limits the availability of web resource. This paper uses information extraction technology to solve the problem. [Method] Information extraction technology based on DOM can extract needed content simply and accurately,but it relies on the structure of web page. The technology based on block distribution algorithm,which needs manual intervention,breaks the limitation of web page structure and overcomes the shortcoming of limited data source. In this paper,based DOM,block distribution algorithm and regular expression,web page information collection and extraction system is implemented. [Conclusion] The result shows that the method extracts web page information automatically and accurately. [Limitations]The extraction results of English pages and pages with complex structure are not satisfied,and the extraction content is limited to text.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.46