检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]忻州师范学院计算机系,山西忻州034000 [2]山西大学计算机与信息技术学院,山西太原030006
出 处:《济南大学学报(自然科学版)》2007年第3期243-245,271,共4页Journal of University of Jinan(Science and Technology)
基 金:国家自然科学基金(60473139);忻州师范学院科研基金(200623)
摘 要:名词短语识别是自然语言处理领域的非常重要的子任务。利用最大熵法(ME)、支持向量机法(SVM)和隐马尔可夫模型(HMM)3种有代表性的统计方法对汉语文本进行名词短语识别,并对实验结果进行比较分析。结果表明HMM法在封闭测试中优势明显,SVM法在小样本模式的开放测试中表现良好,而最大熵方法在两种测试中的识别结果均比较理想。分析表明,HMM方法侧重应用在与线性序列相关的现象上;SVM方法适用于有限的汉语带标信息的分类问题;而最大熵方法特别适用于把不受限的文本特征加入统计模型中的情况。The identifiction of noun phrases is an important sub - task in natural language processing. This paper adopts three typical methods including Maximun Entropy, Support Vector Machines and Hidden Markov Model to recognize noun phrases in Chinese texts. Through the comparison and analysis to the experiments,the result shows that the function of HMM in the closed test is dominant, and SVM achieves hign performance in the open test with small number of samples and the recognition effects based ME in both closed test and open test are ideal. The study shows that HMM is mainly used on the problems related to linear array, and SVM is adaptable to solve the classification problem of a small number of Chinese babeled samples,and that ME is especially used in the statistic model added unlimited text characteristic.
关 键 词:中文信息处理 最大熵 支持向量机 隐马尔可夫模型 短语识别
分 类 号:TN391.1[电子电信—物理电子学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222