检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京大学计算机软件新技术国家重点实验室,江苏南京210093 [2]南京师范大学语言信息科技研究中心,江苏南京210097
出 处:《中文信息学报》2012年第2期69-74,共6页Journal of Chinese Information Processing
基 金:国家自然科学基金(61003112;61073119);国家社会科学基金(10CYY021);南京大学计算机软件新技术国家重点实验室(KFKT2011B03)
摘 要:汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。Chinese abbreviations are widely used in modern Chinese texts,and the researches on them are important for Chinese information processing.In this paper,we propose an approach to extract Chinese abbreviations from Chinese-English parallel corpus.First we generate word alignments for the corpus,and extract Chinese-English phrase pairs consistent with the alignments.Then,we discriminate high quality phrase pairs from the bad ones by SVM Classifier.In the end,we extract Chinese abbreviation and full-form phrase pairs from the high quality group using their corresponding English translations and some rules.The experiments show that our approach can extract abbreviations with high accuracy,and could be an effective way to extract Chinese abbreviation and full-form phrase pairs.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.117.189.143