基于词干的混合策略维吾尔语文本聚类特征选择方法研究被引量：2

ON STEM-BASED FEATURE SELECTION ALGORITHM WITH MIXED POLICIES FOR UYGHUR TEXT CLUSTERING

机构地区：[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学现代教育技术中心,新疆乌鲁木齐830046 [3]昌吉学院计算机工程系,新疆昌吉831100

出　　处：《计算机应用与软件》2012年第12期30-32,50,共4页Computer Applications and Software

基　　金：国家自然科学基金项目(60663006);国家社会科学基金项目(10AYY006);新疆维吾尔自治区高校科研计划青年教师科研基金项目(XJEDU2011S42);昌吉学院科研基金项目(2011SSQD029)

摘　　要：维吾尔语文本聚类中特征选择对聚类的效率和效果都有直接影响。根据维吾尔语构词法规律,在原有基于文档频率特征选择算法基础上,提出新的维吾尔语文本聚类的特征提取算法。新方法将词干作为文本的特征项,在原算法上融合了基于特征贡献度的选择方法,并使用Java语言实现了一个维吾尔语文本聚类系统。使用该系统在人工分类的文本集上进行实验,结果表明:新的特征提取算法有效地降低了文本向量空间维度,在准确率、召回率和F-Measure等指标方面均有不同程度提高。Feature selection in Uyghur text clustering directly affects the clustering efficiency and effect. In this paper, according to the word formation rules in Uyghur language and on the basis of original document frequency-based feature selection algorithm, we put forward a new feature extraction algorithm of Uyghur text clustering. The new method takes stem as the feature item of a text, fuses feature contributionbased selection method to original algorithm, and uses Java language to implement a Uyghur text clustering system. The system is used to the experiment of artificial classified text set, result shows that the new feature extraction algorithm efficiently decreases the dimension of the text vector space, and improves in different extent the indexes of accuracy, recalling rate and F-Measure.

关键词：文本聚类维吾尔语特征选择

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于词干的混合策略维吾尔语文本聚类特征选择方法研究被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于词干的混合策略维吾尔语文本聚类特征选择方法研究 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于词干的混合策略维吾尔语文本聚类特征选择方法研究被引量：2