检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:鲁明羽[1] 沈抖[2] 郭崇慧[2] 陆玉昌[2]
机构地区:[1]大连海事大学计算机科学与技术学院,辽宁大连116026 [2]清华大学计算机科学与技术系,北京100084
出 处:《电子学报》2006年第8期1475-1480,共6页Acta Electronica Sinica
基 金:国家自然科学基金(No.60473115)
摘 要:网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.Web-page classification is an important research direction of web mining and much more difficult than pure-text classification. The accuracy of web-page classification can be heightened by getting rid of noisy information embedded in web pages, and the idea is utilized by our proposed summarization-based web-page classification method. In the paper, three traditional web-page summarization methods are analyzed and improved, and the Content Body sum- marization method and an ensemble summarization method based on four summarization methods are proposed. A large amount of experimental results of web-page classification based on summarization show that all the summarization methods can improve the performance of web-page classification algorithms and the ensemble summarization method achieves a 12.9% improvement over pure-text based methods.
关 键 词:网页分类 网页摘要 CONTENT BODY 混合摘要方法
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222