检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:耿增民[1,2] 杜剑侠[2] 陈迪[2] 周毅灵[2] 邵熙雯
机构地区:[1]北京服装学院数字与交互媒体北京市重点实验室,北京100029 [2]北京服装学院计算机信息中心,北京100029
出 处:《中北大学学报(自然科学版)》2017年第3期354-359,共6页Journal of North University of China(Natural Science Edition)
基 金:北京市教育科学"十二五"规划重点课题资助项目(AJA11174);教育部人文社科资助项目(12YJA760014);2014年度北京服装学院科学研究提升计划培育资助项目
摘 要:互联网网页数量爆炸性地增长,使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点,提出一种基于层次特征词权重的文档特征表示方法,以此为基础,在网页文档分类时,通过对网页结构和文本链接分析,设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明,对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.The explosive growth of Web pages makes currently the research of Web document classification technology a hotspot of Web mining.Representation method of document characteristics based on hierarchy feature word weight was put forward aiming to document character of special domains.Based on this, the text classification algorithm named HFSHA(hierarchy feature word weight and structure and hyperlink analysis)was designed by considering the Web structure and link relationships.It shows that HFSHA has higher accuracy rate on the text classification than normal classification algorithm based VSM text representation in the experiment on fashion Web documents corpus.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222