检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吕聚旺[1] 都云程[1,2] 王弘蔚[1,2] 施水才[1,2]
机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101 [2]北京拓尔思信息技术股份有限公司,北京100101
出 处:《现代图书情报技术》2008年第12期48-53,共6页New Technology of Library and Information Service
基 金:国家863计划重点项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105);国家自然科学基金项目“基于语义的中文文本聚类研究”(项目编号:60772081);北京市属市管高校人才强教计划项目“创新团队-智能搜索引擎和文本挖掘”(项目编号:PXM2007_014224_044677)的研究成果之一
摘 要:针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。Aiming at the problem that the extration of topic information from Web page is not precise enough, this paper presents a new method of calculating the topic information of Web pages, which dividing the topic information of Web pages into three forms and using different quantization method for each. Based on the ideas above, the authors combine document object model with section thinking and present the IB - DOM model. Based on the idea of divide - and - conquer, first find the region which contains the topic information, then the irrelevant information is filtered out. The experimental re- sults show that this approach can solve the contradiction between integrity and accuracy existing in the field of automatic extraction of topical information from Web pages betterly.
关 键 词:网页主题信息信息抽取信息块语义信息IB—DOM树
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.75