检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李丽娜[1] 余正涛[1,2] 王亚盛[1] 毛存礼[1,2] 郭剑毅[1,2]
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650051 [2]云南省计算机技术应用重点实验室智能信息处理研究所,云南昆明650051
出 处:《广西师范大学学报(自然科学版)》2011年第1期157-161,共5页Journal of Guangxi Normal University:Natural Science Edition
基 金:国家自然科学基金资助项目(60863011);云南省自然科学基金重点资助项目(2008CC023);云南省中青年学术和技术带头人后备人才基金资助项目(2007PY01-11)
摘 要:专家实体主页识别是专家检索的一个重要的组成部分,本文提出了一种基于J48的机器学习算法来对中文专家实体主页进行分类识别。首先,人工收集中文专家实体及对应的专家主页面2 113个,针对中文专家实体特点,定义与链接和网页内容特征相关的专家实体特征,并对这些特征进行提取,形成训练数据集。然后,采用不同学习算法对在不同特征上的页面进行主页识别,寻找最有效的分类特征和主页识别学习算法。最后,对不同特征、不同算法进行测试,实验结果表明,采用J48算法,结合链接与网页内容特征,中文专家实体主页识别取得了较好的效果,其识别准确率达到了81.05%。Expert Entity Homepage Recognition is one of the key points in expert search.In this paper,a method based on J48 is proposed.2 113 Chinese expert entities and the corresponding entity homepages are collected by analyzing the expert resources,and the expert entity features related to the features of link and webpage content are defined.Besides,these features are also extracted to form a training data set;and then different learning algorithms with different features are adopted to recognize the expert homepage for finding the most effective classification features and homepage recognition learning algorithm.The experiment results show that the best method is obtained by using J48 algorithm,specifically,when the features of link and webpage content are combined with,the expert homepage recognition accuracy rate reaches 81.05%.
关 键 词:中文专家实体 主页识别 链接特征 网页特征 J48
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.80