检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:亚力青.阿里玛斯 哈力旦.阿布都热依木 陈洋[1]
机构地区:[1]新疆大学电气工程学院,新疆乌鲁木齐830047
出 处:《新疆大学学报(自然科学版)》2015年第2期221-226,共6页Journal of Xinjiang University(Natural Science Edition)
基 金:国家自然科学基金项目(61163026)
摘 要:在大规模的文本信息检索技术背景下,提出了维吾尔文本过滤模型及实现方法.文本表示模型在向量空间模型(VSM)的基础上,采用三种相似度度量方法计算输入文本与用户模板相似度作为决策手段,对维吾尔文本进行了过滤实验.对于维吾尔文特征空间的高维性问题,通过词干提取,停用词过滤,特征选择等方法降低了特征空间维数.最后利用准确率(Precision)和召回率(Recall)综合函数F1值作为评价指标分析了维吾尔文文本过滤实验结果.Under the background of large-scale text information retrieval technology, presented Uyghur text filtering model and implementation method. On the basis of vector space model (VSM), using three methods of similarity measure to calculate the similarity of input text with user templates as decision-making tools for Uyghur text filtering experiments. As to the problem of high dimensionality feature space of Uyghur texts, by stemming, stop words filtering, feature selection methods to reduce the dimension of feature space. Finally, analysis the text filtering results by value of F1 presented by Precision and Recall.
关 键 词:文本过滤 维吾尔文本 向量空间模型 相似度 用户模板
分 类 号:TP391.2[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.239