基于隐结构感知的并列名词短语识别研究  被引量:3

Research on Coordinate Noun Phrase Identification Based on Latent Structured Perceptron

在线阅读下载全文

作  者:王浩[1] 姬东鸿[1] 黄江平[1] 

机构地区:[1]武汉大学计算机学院,武汉430072

出  处:《计算机工程》2017年第4期217-221,227,共6页Computer Engineering

基  金:国家自然科学基金重点项目"篇章级中文语义分析理论与方法"(61133012);国家自然科学基金面上项目"汉语语篇连贯的事件链模型研究"(61373108)

摘  要:针对现有并列名词短语识别不能处理短语序列隐含信息的情况,提出一种新的并列名词短语识别方法。采用隐结构感知模型与条件随机场模型,识别并列名词短语序列以及序列中用于连接并列名词短语的连词和标点。针对并列名词短语序列进行任务描述,建立语料库并选择典型的并列名词短语识别特征进行实验。结果表明,隐结构感知模型由于加入序列中的隐含信息,相比传统条件随机场模型在并列名词短语识别中更有优势,F度量值达到86.36%,进而证明该模型能够用于以信息抽取为导向的并列名词短语识别。Aiming at the situation that the existing coordinate noun phrase identification cannot deal with the implicit information of the phrase sequence, this paper proposes a new coordinate noun phrase indentificaiton method. Conditional Random Fields (CRF) model and Latent Structured Perceptron (LSP) model are used to identify the sequence of coordinate noun phrases as well as conjunctions and punctuation used to connect coordinate noun phrases in a sequence. In this paper, the task description is firstly carried out for the sequence of coordinate noun phrases. Then the corpus is constructed, and the typical recognition features of the coordinate noun phrase are selected for the experiment. Experimental results show that,compared with traditional CRF model,LSP model with latent information gives superior performance,gains the F score up to 86.36% ,and proves that the model can be used for information extraction oriented coordinate noun phrase identification.

关 键 词:并列名词短语 隐结构感知 条件随机场 序列识别 边界识别 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象