检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨商业大学计算机与信息工程学院,哈尔滨150028
出 处:《哈尔滨商业大学学报(自然科学版)》2011年第2期203-207,共5页Journal of Harbin University of Commerce:Natural Sciences Edition
基 金:哈尔滨商业大学青年骨干教师科研创新项目(SD06030)
摘 要:提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,最终分类的准确率达到80%以上.This paper proposed an algorithm based on blocking the webpage's links to retrieve the relative links with good precision,the complexity of the algorithm has the character of time low,and precision and recall are satisfactory.Based on the vector space model,this paper used KNN to classify the chinese webpage.Compared with the results of classification based on the title,classification based on text classification,as well as text and relative links classification together,title and relative links classification together.It was true that the relative links is helpful to the classification of webpage,and the final classification precision is higher than 80%.
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.73