基于新型主题信息量化方法的Web主题信息提取研究  被引量:1

The Study of Topic Information Extraction from Web Pages Based on A New Method of Topic Information Calculation

在线阅读下载全文

作  者:吕聚旺[1] 都云程[1,2] 王弘蔚[1,2] 施水才[1,2] 

机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101 [2]北京拓尔思信息技术股份有限公司,北京100101

出  处:《现代图书情报技术》2008年第12期48-53,共6页New Technology of Library and Information Service

基  金:国家863计划重点项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105);国家自然科学基金项目“基于语义的中文文本聚类研究”(项目编号:60772081);北京市属市管高校人才强教计划项目“创新团队-智能搜索引擎和文本挖掘”(项目编号:PXM2007_014224_044677)的研究成果之一

摘  要:针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。Aiming at the problem that the extration of topic information from Web page is not precise enough, this paper presents a new method of calculating the topic information of Web pages, which dividing the topic information of Web pages into three forms and using different quantization method for each. Based on the ideas above, the authors combine document object model with section thinking and present the IB - DOM model. Based on the idea of divide - and - conquer, first find the region which contains the topic information, then the irrelevant information is filtered out. The experimental re- sults show that this approach can solve the contradiction between integrity and accuracy existing in the field of automatic extraction of topical information from Web pages betterly.

关 键 词:网页主题信息信息抽取信息块语义信息IB—DOM树 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象