检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连理工大学计算机科学与工程系,大连116024
出 处:《计算机工程》2007年第19期276-278,共3页Computer Engineering
基 金:国家自然科学基金资助项目(60373095)
摘 要:提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签<table>将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签<p>或<br>等来区分主题内容和噪音内容,在此基础上去除噪音内容。对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高。 This paper presents an approach to eliminate noise based on framework of Web pages and rules.This approach divides a page into several parts according to HTML tag 〈table〉 in a Web page,then compares the ratio of width and height attributes of every table and deletes the part of bigger ratio.To the rest tables,topic and noise content are differentiated according to tag 〈p〉 or 〈br〉related to paragraph,the noise content is eliminated based on this way.Experiments performed on a set of 132 559 Web pages from CWT200G show that this approach can eliminate noise content of Web pages effectively and decrease the size of index files to about 75%.The information retrieval speed can be faster,and the accuracy of retrieval can be improved.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.188.100.179