Web文本信息的特征获取算法  被引量:27

Feature Acquiring Algorithm on the Web Text

在线阅读下载全文

作  者:刘明吉[1] 王秀峰[1] 饶一梅[1] 黄亚楼[1] 

机构地区:[1]南开大学计算机与系统科学系,天津300071

出  处:《小型微型计算机系统》2002年第6期683-686,共4页Journal of Chinese Computer Systems

基  金:天津自然科学技术基金项目 (0 0 3 70 0 111);(993 60 0 811)和 (0 0 3 60 0 3 11)资助

摘  要:Internet的发展为人们提供了大量的信息资源 ,Web文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术 .本文以矢量空间模型为 Web文本的表示方法 ,提出了一个基于遗传算法的 Web文本特征抽取算法 ,进一步提高了 Web文本的处理效率 ,为文本的分类、聚类以及其它处理提供了简练的特征表示方法 .实验证明 ,该种处理方法有效地降低了文本特征矢量的维数 .The booming growth of the Internet provides us a great deal of information resource. Web text mining is an efficient technique, which discovery valuable and potential knowledge from those unstructured texts. In this paper, we use VSM as the description of web text and give a feature subset algorithm which is based on the Genetic Algorithm. This algorithm can greatly improve the efficiency of dealing with web texts and give much better way to classify and cluster the texts. Our experiments show that this method active well in feature dimension reduction.

关 键 词:WEB 文本信息 特征获取算法 遗传算法 INTERNET WWW 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象