基于双语平行语料的中文缩略语提取方法  被引量:2

A Bilingual Corpus Based Approach to Chinese Abbreviation Extraction

在线阅读下载全文

作  者:刘友强[1] 李斌[1,2] 奚宁 陈家骏[1] 

机构地区:[1]南京大学计算机软件新技术国家重点实验室,江苏南京210093 [2]南京师范大学语言信息科技研究中心,江苏南京210097

出  处:《中文信息学报》2012年第2期69-74,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金(61003112;61073119);国家社会科学基金(10CYY021);南京大学计算机软件新技术国家重点实验室(KFKT2011B03)

摘  要:汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。Chinese abbreviations are widely used in modern Chinese texts,and the researches on them are important for Chinese information processing.In this paper,we propose an approach to extract Chinese abbreviations from Chinese-English parallel corpus.First we generate word alignments for the corpus,and extract Chinese-English phrase pairs consistent with the alignments.Then,we discriminate high quality phrase pairs from the bad ones by SVM Classifier.In the end,we extract Chinese abbreviation and full-form phrase pairs from the high quality group using their corresponding English translations and some rules.The experiments show that our approach can extract abbreviations with high accuracy,and could be an effective way to extract Chinese abbreviation and full-form phrase pairs.

关 键 词:缩略语 平行语料库 短语抽取 分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象