检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]湖南大学信息科学与工程学院,长沙410082
出 处:《计算机应用研究》2016年第4期1062-1065,共4页Application Research of Computers
基 金:国家自然科学基金资助项目(61472132);湖南省产学研结合重大科技成果转化资助项目(2010XK6024);国家核高基重大专项资助项目(2012ZX01045-004-005-002)
摘 要:现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先对语料进行文本预处理、添加位置标签、加权词频过滤等建立词条的位置标签集;然后依据位置标签集计算词条在句子中的相邻度判定组合词;最后制定反规则对抽取结果进行过滤,并对垃圾串进行两端逐步消减再判定进一步识别组合词。通过在不同语料库上进行实验,结果表明本方法具有更高的准确率。Now existing segmentation systems cannot recruit new words timely,so they cannot identify compound words effectively. To solve that,this paper proposed a method of compound word extraction based on location tag and POS( part of speech). First,this method established location tag set for each item by processing corpus texts,adding location tag for each item and filtering items with weighted term frequency. Then it counted adjacent degree to judge compound words on the basis of location tag set. Finally,formulated reverse rules and filtered garbage strings with them,detected combined words further from garbage strings by removing item from the head and the tail. Experiments were carried out on different corpora,and the results show that this method has higher precision.
关 键 词:组合词抽取 位置标签集 相邻度 反规则过滤 新词发现
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:52.14.9.224