检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李开荣[1,2] 孔照昆[1] 陈桂香[1] 朱俊武[1]
机构地区:[1]扬州大学信息工程学院,江苏扬州225127 [2]扬州大学水利科学与工程学院,江苏扬州225127
出 处:《微电子学与计算机》2012年第11期161-165,共5页Microelectronics & Computer
基 金:国家自然科学基金项目(61170201)
摘 要:将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量.The application of the improved Hidden Markov Models to text categorization should take the backward dependency as well as forward dependency on states into account.The accuracy of information extraction could be improved by applying the dependency of the current observation value and state on the backward ones into the learning of models.This paper is to preprocess the training samples in text categorization process,to learn the parameters of HMM classifier,establishing one and evaluating its performance through testing set.The improved evaluation criteria could give a fair evaluation of different dataset,make a comparison of different classifiers on the performance of the same dataset and feed back the classifier to improve.
关 键 词:隐马尔可夫模型 文本分类 期望交叉熵(ECE) χ2统计 TF-IDF方法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.218.221.53