Web数据挖掘中的可信数据来源  被引量:1

Trusted Data Source in Web Data Mining

在线阅读下载全文

作  者:鲍宇[1,2,3] 曾国荪[1,3] 管红杰[2] 

机构地区:[1]同济大学计算机科学及技术系,上海201804 [2]中国矿业大学计算机科学与技术学院,徐州221116 [3]嵌入式系统与服务计算教育部重点实验室,上海201804

出  处:《计算机科学》2009年第4期211-214,共4页Computer Science

基  金:863项目(2007AA01Z425);973计划前期研究专项(2007CB316502);国家自然基金项目(60673157);中国矿业大学青年基金(OD4544)资助

摘  要:从大量Web信息中获取有用的信息是Web数据挖掘的关键问题。如何评价Web信息是否可信,现在主要方法是通过BadRank算法进行内容评测,或是通过链接权重进行相关引用数计算。可信数据来源是数据挖掘的前提,在基于关键词的数据挖掘中,通过评价挖掘所涉及的不同数据域,以及数据域自身的可信性,对在不同域所获得的挖掘数据给以权重,从而对挖掘结果的序列产生影响,提高挖掘算法在获取可信结果方面的效率。并通过试验测试了可信域评价的效果。How to abstract the trusted information is a hot issue in Web data mining. The evaluation of information in Web is obtained by content evaluation,or by BadRank algorithm or by weighing the link of pages now. This essay from the viewpoint of data source gave a new approach to evaluate the trusted information by evaluating the domains that the search engine involved in, and we gave the domains different weight values. So the order of the search result sequence will be rearranged according to the weight. That will be improved the ability of the data mining algorithm in catching the trusted result. Experimental results show that proposed system can distinguish the trusted documents in trusted domain.

关 键 词:WEB数据挖掘 Web可信数据 数据挖掘 

分 类 号:TP338[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象