基于向量空间模型的维吾尔文文本过滤方法  被引量:4

Uyghur Text Filtering Based on Vector Space Model

在线阅读下载全文

作  者:亚力青.阿里玛斯 哈力旦.阿布都热依木 陈洋[1] 

机构地区:[1]新疆大学电气工程学院,新疆乌鲁木齐830047

出  处:《新疆大学学报(自然科学版)》2015年第2期221-226,共6页Journal of Xinjiang University(Natural Science Edition)

基  金:国家自然科学基金项目(61163026)

摘  要:在大规模的文本信息检索技术背景下,提出了维吾尔文本过滤模型及实现方法.文本表示模型在向量空间模型(VSM)的基础上,采用三种相似度度量方法计算输入文本与用户模板相似度作为决策手段,对维吾尔文本进行了过滤实验.对于维吾尔文特征空间的高维性问题,通过词干提取,停用词过滤,特征选择等方法降低了特征空间维数.最后利用准确率(Precision)和召回率(Recall)综合函数F1值作为评价指标分析了维吾尔文文本过滤实验结果.Under the background of large-scale text information retrieval technology, presented Uyghur text filtering model and implementation method. On the basis of vector space model (VSM), using three methods of similarity measure to calculate the similarity of input text with user templates as decision-making tools for Uyghur text filtering experiments. As to the problem of high dimensionality feature space of Uyghur texts, by stemming, stop words filtering, feature selection methods to reduce the dimension of feature space. Finally, analysis the text filtering results by value of F1 presented by Precision and Recall.

关 键 词:文本过滤 维吾尔文本 向量空间模型 相似度 用户模板 

分 类 号:TP391.2[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象