基于语料库的名词短语识别方法  被引量:2

Noun Phrase Recognition Methods Based on Corpus

在线阅读下载全文

作  者:李荣[1] 郑家恒[2] 

机构地区:[1]忻州师范学院计算机系,山西忻州034000 [2]山西大学计算机与信息技术学院,山西太原030006

出  处:《济南大学学报(自然科学版)》2007年第3期243-245,271,共4页Journal of University of Jinan(Science and Technology)

基  金:国家自然科学基金(60473139);忻州师范学院科研基金(200623)

摘  要:名词短语识别是自然语言处理领域的非常重要的子任务。利用最大熵法(ME)、支持向量机法(SVM)和隐马尔可夫模型(HMM)3种有代表性的统计方法对汉语文本进行名词短语识别,并对实验结果进行比较分析。结果表明HMM法在封闭测试中优势明显,SVM法在小样本模式的开放测试中表现良好,而最大熵方法在两种测试中的识别结果均比较理想。分析表明,HMM方法侧重应用在与线性序列相关的现象上;SVM方法适用于有限的汉语带标信息的分类问题;而最大熵方法特别适用于把不受限的文本特征加入统计模型中的情况。The identifiction of noun phrases is an important sub - task in natural language processing. This paper adopts three typical methods including Maximun Entropy, Support Vector Machines and Hidden Markov Model to recognize noun phrases in Chinese texts. Through the comparison and analysis to the experiments,the result shows that the function of HMM in the closed test is dominant, and SVM achieves hign performance in the open test with small number of samples and the recognition effects based ME in both closed test and open test are ideal. The study shows that HMM is mainly used on the problems related to linear array, and SVM is adaptable to solve the classification problem of a small number of Chinese babeled samples,and that ME is especially used in the statistic model added unlimited text characteristic.

关 键 词:中文信息处理 最大熵 支持向量机 隐马尔可夫模型 短语识别 

分 类 号:TN391.1[电子电信—物理电子学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象