自由文本中汉语缩略语的自动抽取  

Chinese abbreviation automatic extraction in free text

在线阅读下载全文

作  者:张雷瀚[1] 吕学强[1] 李卓[1] 

机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101

出  处:《计算机工程与设计》2014年第4期1372-1378,共7页Computer Engineering and Design

基  金:国家自然科学基金项目(61171159;61271304);北京市教委科技发展计划重点基金项目暨北京市自然科学基金B类重点基金项目(KZ201311232037)

摘  要:以汉语为对象,提出了一种从自由文本中自动抽取缩略语的方法。分析缩略语与完整形式的词性结构,提出词性模板匹配方法,获取候选缩略语与候选完整形式;根据二者之间的字面关联和共现特性,构造若干约束规则,实现候选缩略语的配对。分析缩略语与完整形式的内在关联、外部语义和外部统计3类特征,构造决策树模型,将缩略语对的判别转换为缩略语与完整形式是否匹配的二元分类问题。相比前人研究,该方法在准确率和通用性方面均有提升,其中准确率达到了72.1%。A framework of extracting Chinese abbreviation automatically from free text is proposed. According to the POS struc- ture of abbreviation pair and the relationship between abbreviation and definition, the method POS template matching and several pairing constraint rules are designed to get candidate abbreviation-definition pairs. Then, by constructing the decision tree using three kinds of features, which are respectively internal relationship, external semantic feature and external statistic feature, the identification of abbreviation-definition pairs is converted into dichotomous classification. Compared with similar studies, the approach performs better in accuracy and applicability and gets an accuracy of 72.1%.

关 键 词:缩略语 完整形式 自动抽取 词性模板 决策树 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象