基于Web数据挖掘的多因素科技专家信息提取方法被引量：1

Multivariate Method for Extracting the Basic Information of Experts in Science and Technology Based on Web Mining

作　　者：朱全银[1] 周培[1] 尹永华[1] 陈浮[1] 刘金岭[1]

出　　处：《淮阴工学院学报》2013年第5期23-27,共5页Journal of Huaiyin Institute of Technology

基　　金：国家星火计划项目(2011GA690190);淮安市科技支撑项目(HAG2011052;HAG2011045;HASZ2012046;HASZ2012050);淮安市"533英才工程"项目资助

摘　　要：由于网页信息呈现的多样性和复杂性,基于Web数据挖掘的信息提取准确率不高。为了提高科技专家Web信息挖掘的正确率,提出一种基于Web数据挖掘的多因素科技专家信息提取方法,对于网页给定统一资源定位符(URL)先进行网页正文提取,综合特征词在网页正文中的位置及特征词与特征词之间的距离构成最短距离匹配方法,抽取科技专家姓名、性别、出生年月、出生地点、职称等信息。实验结果表明,该方法获得了94.43%的查全率和92.34%的准确率,较好地满足了应用需求。The accuracy rate of information extracting by Web mining is not high because of the multiformity and complexity of web pages.In order to increase the accuracy rate of information extracting by Web mining for building a basic information system of experts in science and technology,a novel multivariate extracting method was proposed in this paper.The proposed method extracted web pay by URL first and then integrated the positions of characteristic words in the web page and the shortest-word-distance matching method to extract expert information.The extracted results included the name,sex,birth,home place,professional title of experts and etc.Experiments showed that the accuracy rate and recall rate reached 92.34% and 94.43% respectively indicating that the proposed method could satisfy the application requirements.

关键词：科技专家网页正文提取特征词最短距离匹配

分类号：TP181[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Web数据挖掘的多因素科技专家信息提取方法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Web数据挖掘的多因素科技专家信息提取方法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于Web数据挖掘的多因素科技专家信息提取方法被引量：1