检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101
出 处:《计算机工程与设计》2014年第4期1372-1378,共7页Computer Engineering and Design
基 金:国家自然科学基金项目(61171159;61271304);北京市教委科技发展计划重点基金项目暨北京市自然科学基金B类重点基金项目(KZ201311232037)
摘 要:以汉语为对象,提出了一种从自由文本中自动抽取缩略语的方法。分析缩略语与完整形式的词性结构,提出词性模板匹配方法,获取候选缩略语与候选完整形式;根据二者之间的字面关联和共现特性,构造若干约束规则,实现候选缩略语的配对。分析缩略语与完整形式的内在关联、外部语义和外部统计3类特征,构造决策树模型,将缩略语对的判别转换为缩略语与完整形式是否匹配的二元分类问题。相比前人研究,该方法在准确率和通用性方面均有提升,其中准确率达到了72.1%。A framework of extracting Chinese abbreviation automatically from free text is proposed. According to the POS struc- ture of abbreviation pair and the relationship between abbreviation and definition, the method POS template matching and several pairing constraint rules are designed to get candidate abbreviation-definition pairs. Then, by constructing the decision tree using three kinds of features, which are respectively internal relationship, external semantic feature and external statistic feature, the identification of abbreviation-definition pairs is converted into dichotomous classification. Compared with similar studies, the approach performs better in accuracy and applicability and gets an accuracy of 72.1%.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.201