语义词特征提取及其在维吾尔文文本分类中的应用  被引量:15

Semantics-based Feature Extraction and Its Application in Uyghur Text Classification

在线阅读下载全文

作  者:吐尔地.托合提 艾克白尔.帕塔尔[1] 艾斯卡尔.艾木都拉[1] 

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046

出  处:《中文信息学报》2014年第4期140-144,共5页Journal of Chinese Information Processing

基  金:国家自然科学基金(61063022;61262062;61163033;61163032);新疆维吾尔自治区高技术研究发展计划项目(201212124);新疆维吾尔自治区高校科研计划重点项目(XJEDU2012I11);教育部新世纪优秀人才支持计划(NCET-10-0969)

摘  要:基于机器学习的文本分类中,维吾尔文传统分词方法表现出非常明显的不足和局限性。该文使用另外一种维吾尔文自动分词方法dme-TS。dme-TS中,不再以词间空格作为切分标记提取词特征,而是用一种组合统计量(dme)来度量文本中相邻单词之间的关联程度,并以dme度量的弱关联的词间位置作为切分点,提取对学习算法真正有意义的语义词特征。实验结果表明,用dme-TS提取文本特征可以降低特征空间的维度,同时也能有效的提高传统以单词为特征的分类算法的性能。In the text classification based on machine learning, the Uyghur traditional segmentation shows its defi- ciencies and limitations obviously. This paper uses another Uyghur automatic word segmentation method named as dme-TS. This segmentation method, no longer uses inter-word space as natural delimiter, but uses a kind of combination statistics (dine) to estimate the agglutinative strength between two adjacent Uyghur words, with the weak dine position as a segmentation point, The experimental result shows that, dme-TS can reduce the dimension of the feature space, at the same time also can effectively improve the classification performance of the tradition algorithm with the word for the features.

关 键 词:维吾尔文分词 词特征 语义词特征 文本分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象