检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]柳州职业技术学院电子信息工程系,广西柳州545006
出 处:《辽宁工程技术大学学报(自然科学版)》2016年第1期85-88,共4页Journal of Liaoning Technical University (Natural Science)
基 金:广西教育厅科研项目基金项目(201106LX745;201204LX593)
摘 要:针对网页信息内容丰富且结构复杂,难以准确挖掘的问题,采用中心聚类和语义特征相互融合的方法.利用中心聚类算法确定样本最终的聚类中心,根据每个词在网页中出现的频率和词的上下文语义,构造一个网页-词语的权重映射矩阵,并将语义特征作为中心聚类相似性的判断依据,完成网页文本信息的挖掘.实验结果表明:利用该方法对网页文本进行挖掘,在时间增加不多的情况下,可以获得更高的召回率和准确率.It is difficult to get accurate data mining due to the rich information contents and the complex structure of webpage. The mining issues can be solved by using the method of mutual integration on central clustering and semantic features. First determining the final cluster centers samples using center clustering algorithm, then according to the each word frequency and semantic in the webpage to construct a web page-right words remapping matrix, and finally using semantic features to judge the similar of center cluster and completing text mining information of the pages. The experimental results show that this method of web text mining can obtain higher rate of recall and precision with the same amount of time.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.224