基于条件随机场与Web数据的缩略语预测  被引量:3

Abbreviation Prediction Using Conditional Random Field and Web Data

在线阅读下载全文

作  者:焦妍[1,2] 王厚峰[1] 张龙凯[1] 

机构地区:[1]北京大学计算语言学教育部重点实验室,北京100871 [2]北京大学计算机科学技术系,北京100871

出  处:《中文信息学报》2012年第2期62-68,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60973053;91024009;90920011);核高基资助项目(2011ZX01042-001-001);博士点基金资助项目(20090001110047)

摘  要:缩略语在自然语言中被广泛使用。因其是新词的重要来源之一,成为了自然语言处理领域的一大问题。该文以汉语为对象,研究了从完整形式预测缩略语形式的方法。首先,使用条件随机场模型对完整形式进行序列标注,生成缩略语候选集合。再利用搜索引擎获取网络数据,并通过不同策略利用网络数据对各候选依次评估,结合各项评估分数进行重排序,选择最终的缩略语结果。实验结果表明,增加Web信息之后,缩略语预测的准确率可以提高约五个百分点。Abbreviations are commonly used in natural languages and constitutes a substantial proportion of Unknown Words,which challenges Natural Language Processing.This article proposes a strategy of predicting abbreviation from full form in Chinese.For a full form,it firstly generates a number of candidates using Conditional Random Field.Then each of the candidates is re-scored according to the results from Web Search Engine based on different search conditions and statistic methods.The candidate with highest score is selected as the abbreviation.Experiments show the precision improves about 5% compared with single Conditional Random Field method.

关 键 词:缩略语 CRF模型 网页数据 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象