中心聚类和语义特征融合的网页信息文本挖掘方法  被引量:2

Text mining method of web information based on fusing center clustering and semantic features

在线阅读下载全文

作  者:符保龙[1] 张爱科[1] 

机构地区:[1]柳州职业技术学院电子信息工程系,广西柳州545006

出  处:《辽宁工程技术大学学报(自然科学版)》2016年第1期85-88,共4页Journal of Liaoning Technical University (Natural Science)

基  金:广西教育厅科研项目基金项目(201106LX745;201204LX593)

摘  要:针对网页信息内容丰富且结构复杂,难以准确挖掘的问题,采用中心聚类和语义特征相互融合的方法.利用中心聚类算法确定样本最终的聚类中心,根据每个词在网页中出现的频率和词的上下文语义,构造一个网页-词语的权重映射矩阵,并将语义特征作为中心聚类相似性的判断依据,完成网页文本信息的挖掘.实验结果表明:利用该方法对网页文本进行挖掘,在时间增加不多的情况下,可以获得更高的召回率和准确率.It is difficult to get accurate data mining due to the rich information contents and the complex structure of webpage. The mining issues can be solved by using the method of mutual integration on central clustering and semantic features. First determining the final cluster centers samples using center clustering algorithm, then according to the each word frequency and semantic in the webpage to construct a web page-right words remapping matrix, and finally using semantic features to judge the similar of center cluster and completing text mining information of the pages. The experimental results show that this method of web text mining can obtain higher rate of recall and precision with the same amount of time.

关 键 词:中心聚类 语义特征 矩阵 网页信息 文本挖掘 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象