检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:朱全银[1] 周培[1] 尹永华[1] 陈浮[1] 刘金岭[1]
机构地区:[1]淮阴工学院计算机工程学院,江苏淮安223003
出 处:《淮阴工学院学报》2013年第5期23-27,共5页Journal of Huaiyin Institute of Technology
基 金:国家星火计划项目(2011GA690190);淮安市科技支撑项目(HAG2011052;HAG2011045;HASZ2012046;HASZ2012050);淮安市"533英才工程"项目资助
摘 要:由于网页信息呈现的多样性和复杂性,基于Web数据挖掘的信息提取准确率不高。为了提高科技专家Web信息挖掘的正确率,提出一种基于Web数据挖掘的多因素科技专家信息提取方法,对于网页给定统一资源定位符(URL)先进行网页正文提取,综合特征词在网页正文中的位置及特征词与特征词之间的距离构成最短距离匹配方法,抽取科技专家姓名、性别、出生年月、出生地点、职称等信息。实验结果表明,该方法获得了94.43%的查全率和92.34%的准确率,较好地满足了应用需求。The accuracy rate of information extracting by Web mining is not high because of the multiformity and complexity of web pages.In order to increase the accuracy rate of information extracting by Web mining for building a basic information system of experts in science and technology,a novel multivariate extracting method was proposed in this paper.The proposed method extracted web pay by URL first and then integrated the positions of characteristic words in the web page and the shortest-word-distance matching method to extract expert information.The extracted results included the name,sex,birth,home place,professional title of experts and etc.Experiments showed that the accuracy rate and recall rate reached 92.34% and 94.43% respectively indicating that the proposed method could satisfy the application requirements.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.16.137.217