基于语义串特征提取及融合评价的维吾尔文文本聚类被引量：1

A Weighted Semantic String-Based Approach to Uyghur Text Clustering

出　　处：《中文信息学报》2017年第5期99-107,共9页Journal of Chinese Information Processing

基　　金：国家自然科学基金(61562083;61262062;61262063)

摘　　要：该文研究一种改进的n元递增算法来抽取文本中表达关键信息的语义串,然后用多特征融合的评价方法为每一个文本选取最重要的语义串,并用这些语义串作为特征表示文本。通过K_means聚类分析的实验结果表明,以语义串作为特征可以构造比单词特征集更紧凑的文本模型,不仅可以大大降低特征空间的维度,对于提高聚类算法性能也是非常有效的。This paper proposes an improved frequent pattern-growth approach to discover and extract the semantic strings which express key information in the text,It then assigns weights to them via a multi-feature fusion method and select the most important semantic strings as features to represent the text.The experimental results by K_means cluster shows that the text model constructed by semantic string feature is more compact than the text model constructed by word feature,not only greatly reducing the dimensions of feature space but also improving the performance of clustering algorithm.

关键词：维吾尔文语义串抽取特征评价及选取向量空间模型 K_means

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于语义串特征提取及融合评价的维吾尔文文本聚类被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于语义串特征提取及融合评价的维吾尔文文本聚类 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于语义串特征提取及融合评价的维吾尔文文本聚类被引量：1