基于语义串特征提取及融合评价的维吾尔文文本聚类  被引量:1

A Weighted Semantic String-Based Approach to Uyghur Text Clustering

在线阅读下载全文

作  者:吐尔地.托合提 维尼拉.木沙江 艾斯卡尔.艾木都拉[1] 

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046

出  处:《中文信息学报》2017年第5期99-107,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(61562083;61262062;61262063)

摘  要:该文研究一种改进的n元递增算法来抽取文本中表达关键信息的语义串,然后用多特征融合的评价方法为每一个文本选取最重要的语义串,并用这些语义串作为特征表示文本。通过K_means聚类分析的实验结果表明,以语义串作为特征可以构造比单词特征集更紧凑的文本模型,不仅可以大大降低特征空间的维度,对于提高聚类算法性能也是非常有效的。This paper proposes an improved frequent pattern-growth approach to discover and extract the semantic strings which express key information in the text,It then assigns weights to them via a multi-feature fusion method and select the most important semantic strings as features to represent the text.The experimental results by K_means cluster shows that the text model constructed by semantic string feature is more compact than the text model constructed by word feature,not only greatly reducing the dimensions of feature space but also improving the performance of clustering algorithm.

关 键 词:维吾尔文 语义串抽取 特征评价及选取 向量空间模型 K_means 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象