基于KNN及相关链接的中文网页分类研究  被引量:2

Research on Chinese webpages classification based on k-nearest neighbour algorithm and relative hyperlinks

在线阅读下载全文

作  者:金一宁[1] 王华兵[1] 王德峰[1] 

机构地区:[1]哈尔滨商业大学计算机与信息工程学院,哈尔滨150028

出  处:《哈尔滨商业大学学报(自然科学版)》2011年第2期203-207,共5页Journal of Harbin University of Commerce:Natural Sciences Edition

基  金:哈尔滨商业大学青年骨干教师科研创新项目(SD06030)

摘  要:提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,最终分类的准确率达到80%以上.This paper proposed an algorithm based on blocking the webpage's links to retrieve the relative links with good precision,the complexity of the algorithm has the character of time low,and precision and recall are satisfactory.Based on the vector space model,this paper used KNN to classify the chinese webpage.Compared with the results of classification based on the title,classification based on text classification,as well as text and relative links classification together,title and relative links classification together.It was true that the relative links is helpful to the classification of webpage,and the final classification precision is higher than 80%.

关 键 词:中文网页分类 网页提取 相关链接 KNN 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象