Stemming和Lemmatization对英文文本聚类的影响研究  被引量:2

Research on the Influence of Stemming and Lemmatization on English Text Clustering

在线阅读下载全文

作  者:韩普[1] 王东波[1] 路高飞[1] 

机构地区:[1]南京大学信息管理学院,江苏南京210093

出  处:《情报理论与实践》2012年第7期109-113,共5页Information Studies:Theory & Application

基  金:教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”(项目编号:08JJD870225);南京大学研究生科研创新基金资助项目“中英双语文本聚类技术及其应用研究”(项目编号:2011CW12)的成果之一

摘  要:词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。Stemming or lemmatization is a key step in English text processing.Utilizing 3 clustering algorithms,this paper makes a comprehensive experiment on 2 stemming algorithms and 1 lemmatization algorithm.The experimental results show that both Stemming and Lemmatization can improve the effevtiveness and efficiency of English text clustering,but have little influence on clustering results.Compared with Snowball stemmer and Stanford lemmatizer,Porter stemmer has a better performance and is more stable in Entropy and Purity.

关 键 词:词干化 词形还原 文本聚类 信息检索 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象