检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李晓红[1]
机构地区:[1]西北师范大学数学与信息科学学院,甘肃兰州710070
出 处:《计算机工程与设计》2009年第17期4127-4129,共3页Computer Engineering and Design
摘 要:针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法。这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性。At present, many feature select algorithms are only concern about the frequency information but not concern the position of characteristics, aiming at this phenomenon, a conception of position weighting is given, and algorithm of no word segmentation is modified appropriately under considering impression of the feature position, but also proposed improved method to combine information gain, CHI and mutual information based on this algorithm, it considered various information of characteristic to select useful characters more accurately. The comparison of experimental results shown that it is a efficient method.
关 键 词:特征抽取 无词典分词 位置权重 词条过滤 文本分类
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30