语义词特征提取及其在维吾尔文文本分类中的应用被引量：15

Semantics-based Feature Extraction and Its Application in Uyghur Text Classification

作　　者：吐尔地.托合提艾克白尔.帕塔尔[1] 艾斯卡尔.艾木都拉[1]

出　　处：《中文信息学报》2014年第4期140-144,共5页Journal of Chinese Information Processing

基　　金：国家自然科学基金(61063022;61262062;61163033;61163032);新疆维吾尔自治区高技术研究发展计划项目(201212124);新疆维吾尔自治区高校科研计划重点项目(XJEDU2012I11);教育部新世纪优秀人才支持计划(NCET-10-0969)

摘　　要：基于机器学习的文本分类中,维吾尔文传统分词方法表现出非常明显的不足和局限性。该文使用另外一种维吾尔文自动分词方法dme-TS。dme-TS中,不再以词间空格作为切分标记提取词特征,而是用一种组合统计量(dme)来度量文本中相邻单词之间的关联程度,并以dme度量的弱关联的词间位置作为切分点,提取对学习算法真正有意义的语义词特征。实验结果表明,用dme-TS提取文本特征可以降低特征空间的维度,同时也能有效的提高传统以单词为特征的分类算法的性能。In the text classification based on machine learning, the Uyghur traditional segmentation shows its defi- ciencies and limitations obviously. This paper uses another Uyghur automatic word segmentation method named as dme-TS. This segmentation method, no longer uses inter-word space as natural delimiter, but uses a kind of combination statistics （dine） to estimate the agglutinative strength between two adjacent Uyghur words, with the weak dine position as a segmentation point, The experimental result shows that, dme-TS can reduce the dimension of the feature space, at the same time also can effectively improve the classification performance of the tradition algorithm with the word for the features.

关键词：维吾尔文分词词特征语义词特征文本分类

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

语义词特征提取及其在维吾尔文文本分类中的应用被引量：15

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

语义词特征提取及其在维吾尔文文本分类中的应用 被引量：15

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

语义词特征提取及其在维吾尔文文本分类中的应用被引量：15