Web文本特征选择算法的研究  被引量:8

Research about Algorithm of Web Text Feather Selection

在线阅读下载全文

作  者:冯长远[1] 普杰信[1] 

机构地区:[1]河南科技大学电子信息工程学院,河南洛阳471003

出  处:《计算机应用研究》2005年第7期36-38,59,共4页Application Research of Computers

基  金:国家教育部科研基金重点项目(200305);河南省自然科学基金资助项目(0311012600)

摘  要:以向量空间模型作为Web文本的表示方法,结合Web文本的结构特征对向量空间模型中的特征选择算法进行了分析并加以改进。在改进的算法中,体现出了特征词在Web文档结构中的位置信息;引入了信息论中熵的概念,用词的熵函数对权值进行调整,从而更加准确地选取有效的特征词。实验验证了改进算法的可行性和有效性。This paper uses vector space model as the description of the Web text, analyses the feather selection algorithm and brings forward an improved algorithm in view of the construct character of the Web text. The new algorithm describes the situation information of the feather terms in Web text, introduces the concept of entropy and adjusts the weig hting by the entropy-function of the words, thus it can select feather terms more effectively. The experiment shows the feasibility and the validity of this method in feather selection.

关 键 词:文本表示 向量空间模型 特征选择  

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象