口语对话中的代词指代消解  被引量:2

Pronoun Resolution in Spoken Dialog

在线阅读下载全文

作  者:费仲超[1,2] 周雅倩[1] 黄萱菁[1] 吴立德[1] 

机构地区:[1]复旦大学计算机科学技术学院,上海200433 [2]上海贝尔股份有限公司产品线战略及技术领先部,上海201206

出  处:《软件学报》2011年第2期233-244,共12页Journal of Software

基  金:国家自然科学基金(60503070;60673038);上海市科委科研计划(08511500302)

摘  要:提出一套分为两步的代词指代消解算法,算法不需要人工清洗语料及预定义规则.算法第1步采用一些新特征和机器学习算法对名词性指代代词和非名词性指代(non-anaphoric)代词分类,第2步分别对两类代词进行消解.针对名词性代词指代消解,提出了适用于口语对话的特征抽取及表示方法,如代词和候选先行词的距离、语法、语义等的抽取和表示方法,然后通过综合这些特征来选择先行词.针对非名词性指代,将右边界规则(right frontier rule)改进为可以在口语对话中自动抽取的形式,并根据该规则选择先行项.在Byron于2004年发布的语料上测试,消解正确率达到77.0%,召回率达到66.0%.与Byron的工作相比,该方法在保证系统能够自动完成的同时还提高了消解性能.This paper presents a two-stage pronoun resolution algorithm. It does not need to clean the testing corpus and predefine patterns manually. In the first stage of the algorithm, some new features and machine learning methods are used to classify pronouns into anaphoric and non-anaphoric ones. In the second stage, these two kinds of pronouns are resolved respectively. For the anaphoric ones, some methods are presented to extract distance, syntactic, and semantic features etc. For the non-anaphoric ones, the Right Frontier Rule is improved to do the resolution work. While testing the corpus published by Byron in 2004, this algorithm achieves a precision of 77.0% and a recall of 66.0%. Compared with the work of Byron, the algorithm is fully automatic, and the results are much better.

关 键 词:代词指代消解 口语对话理解 代词分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象