检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李国和[1,2,3] 岳翔[1,2] 吴卫江[1,2,3] 洪云峰 刘智渊 程远
机构地区:[1]中国石油大学(北京)地球物理与信息工程学院,北京102249 [2]中国石油大学(北京)油气数据挖掘北京市重点实验室,北京102249 [3]石大兆信数字身份管理与物联网技术研究院,北京100029
出 处:《中文信息学报》2015年第4期120-125,共6页Journal of Chinese Information Processing
基 金:国家高新技术研究发展计划(2009AA062802);国家自然科学基金(60473125);中国石油(CNPC)石油科技中青年创新基金(05E7013);国家重大专项子课题(G5800-08-ZS-WX)
摘 要:中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。Abstract.- Feature words selection from texts is a significant step in Chinese text information pre-processing. After the seg- mentation of Chinese texts, a Vector Model constructed by feature words representing the Chinese text documents cannot a- void low accuracy of document classification (or document retrieval) due to the sparseness and high-dimension of feature words. On the basis of an analysis of several classical text feature selection methods, a new method of text feature selection (DC) is presented, which is based on a modified document frequency. Experiments prove the performance of DC, is better than that of typical other methods according to macro-F values and micro-F values.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.143