检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘源[1] 吐尔根.依布拉音 阿力木江.艾沙 张亚军[3]
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学现代教育技术中心,新疆乌鲁木齐830046 [3]昌吉学院计算机工程系,新疆昌吉831100
出 处:《计算机应用与软件》2012年第12期30-32,50,共4页Computer Applications and Software
基 金:国家自然科学基金项目(60663006);国家社会科学基金项目(10AYY006);新疆维吾尔自治区高校科研计划青年教师科研基金项目(XJEDU2011S42);昌吉学院科研基金项目(2011SSQD029)
摘 要:维吾尔语文本聚类中特征选择对聚类的效率和效果都有直接影响。根据维吾尔语构词法规律,在原有基于文档频率特征选择算法基础上,提出新的维吾尔语文本聚类的特征提取算法。新方法将词干作为文本的特征项,在原算法上融合了基于特征贡献度的选择方法,并使用Java语言实现了一个维吾尔语文本聚类系统。使用该系统在人工分类的文本集上进行实验,结果表明:新的特征提取算法有效地降低了文本向量空间维度,在准确率、召回率和F-Measure等指标方面均有不同程度提高。Feature selection in Uyghur text clustering directly affects the clustering efficiency and effect. In this paper, according to the word formation rules in Uyghur language and on the basis of original document frequency-based feature selection algorithm, we put forward a new feature extraction algorithm of Uyghur text clustering. The new method takes stem as the feature item of a text, fuses feature contributionbased selection method to original algorithm, and uses Java language to implement a Uyghur text clustering system. The system is used to the experiment of artificial classified text set, result shows that the new feature extraction algorithm efficiently decreases the dimension of the text vector space, and improves in different extent the indexes of accuracy, recalling rate and F-Measure.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.16.70.193