基于结构和链接分析的网页文档分类算法研究  被引量:1

Document Classification Based on Web Structure and Link Analysis

在线阅读下载全文

作  者:耿增民[1,2] 杜剑侠[2] 陈迪[2] 周毅灵[2] 邵熙雯 

机构地区:[1]北京服装学院数字与交互媒体北京市重点实验室,北京100029 [2]北京服装学院计算机信息中心,北京100029

出  处:《中北大学学报(自然科学版)》2017年第3期354-359,共6页Journal of North University of China(Natural Science Edition)

基  金:北京市教育科学"十二五"规划重点课题资助项目(AJA11174);教育部人文社科资助项目(12YJA760014);2014年度北京服装学院科学研究提升计划培育资助项目

摘  要:互联网网页数量爆炸性地增长,使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点,提出一种基于层次特征词权重的文档特征表示方法,以此为基础,在网页文档分类时,通过对网页结构和文本链接分析,设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明,对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.The explosive growth of Web pages makes currently the research of Web document classification technology a hotspot of Web mining.Representation method of document characteristics based on hierarchy feature word weight was put forward aiming to document character of special domains.Based on this, the text classification algorithm named HFSHA(hierarchy feature word weight and structure and hyperlink analysis)was designed by considering the Web structure and link relationships.It shows that HFSHA has higher accuracy rate on the text classification than normal classification algorithm based VSM text representation in the experiment on fashion Web documents corpus.

关 键 词:WEB挖掘 文本分类 链接分析 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象