检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]同济大学计算机科学及技术系,上海201804 [2]中国矿业大学计算机科学与技术学院,徐州221116 [3]嵌入式系统与服务计算教育部重点实验室,上海201804
出 处:《计算机科学》2009年第4期211-214,共4页Computer Science
基 金:863项目(2007AA01Z425);973计划前期研究专项(2007CB316502);国家自然基金项目(60673157);中国矿业大学青年基金(OD4544)资助
摘 要:从大量Web信息中获取有用的信息是Web数据挖掘的关键问题。如何评价Web信息是否可信,现在主要方法是通过BadRank算法进行内容评测,或是通过链接权重进行相关引用数计算。可信数据来源是数据挖掘的前提,在基于关键词的数据挖掘中,通过评价挖掘所涉及的不同数据域,以及数据域自身的可信性,对在不同域所获得的挖掘数据给以权重,从而对挖掘结果的序列产生影响,提高挖掘算法在获取可信结果方面的效率。并通过试验测试了可信域评价的效果。How to abstract the trusted information is a hot issue in Web data mining. The evaluation of information in Web is obtained by content evaluation,or by BadRank algorithm or by weighing the link of pages now. This essay from the viewpoint of data source gave a new approach to evaluate the trusted information by evaluating the domains that the search engine involved in, and we gave the domains different weight values. So the order of the search result sequence will be rearranged according to the weight. That will be improved the ability of the data mining algorithm in catching the trusted result. Experimental results show that proposed system can distinguish the trusted documents in trusted domain.
分 类 号:TP338[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117