基于自动构建语料库的词汇级复述研究  被引量:3

Lexical Paraphrasing Based on Automatically Constructed Corpora

在线阅读下载全文

作  者:赵世奇[1] 刘挺[1] 李生[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001

出  处:《电子学报》2009年第5期975-980,共6页Acta Electronica Sinica

基  金:国家自然科学基金(No.60803093;No.60675034);国家863高技术研究发展计划(No.2008AA01Z144)

摘  要:本文针对词汇级复述问题提出了一种新的方法.该方法首先利用翻译引擎将双语平行语料库自动转换为单语平行语料库,以此构建复述语料库并用于候选复述的抽取.在此基础上,本文提出了一种新的统计模型.该模型根据特定的上下文为待复述词选择最为合适的复述.实验结果表明自动构建的复述语料库对于词汇级复述的抽取是有效的.同时,本文提出的模型明显优于两种传统模型,在准确率和召回率上分别提高10%左右.This paper presents a new method for lexical paraphrasing. The method first constructs a paraphrase corpus by automatically translating a bilingual parallel corpus into a monolingual parallel corpus,from which candidate paraphrases for words are extracted.After that,a new statistical model is proposed for lexical paraphrasing, which selects the best paraphrase for a word in a given context sentence. Experimental results show that the automatically constructed paraphrase corpus is effective for lexical paraphrasing. In addition, the presented paraphrasing model significantly outperforms two conventional models, enhancing precision and recall by about 10% ,respectively.

关 键 词:词汇级复述 复述语料库 复述模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象