检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连理工大学系统工程研究所,大连116024
出 处:《系统工程理论与实践》2010年第1期105-111,共7页Systems Engineering-Theory & Practice
基 金:国家高技术研究发展计划(863计划)(2008AA04Z107)
摘 要:在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析,结果表明该方法能够提取得到电子文档中包括原子词与合成词在内的所有词语,并且准确率与召回率较之前的方法均有很大提高.优良的自动提词结果能够保证文本自动处理的性能,进而促进相关领域的自动化程度与性能的提高.Term extraction is one of the key technologies of automatically text processing, on which knowledge management and information retrieval are based. This paper proposes a new Chinese term extraction method. This method combines POS (Part-of-speech) analysis and string frequency statistics to determine whether a Chinese string in a document is a term or not, through the way, it extracts from the document terms including both atomic words and compound words. This paper explains the theory and the implement details of the new method and demonstrates its performance by comparing precision and recall rate of the calculation fesults with current representative methods. Experiments show that this method improves both precision and recall rates in term extraction. Better term extraction result means higher performance in automatically text processing, consequently, higher and better automation within related domains.
关 键 词:文本自动处理 词语提取 原子词 合成词 词性标记
分 类 号:TP182[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.185