结合词性分析与串频统计的词语提取方法  被引量:19

Chinese term extraction based on POS analysis & string frequency

在线阅读下载全文

作  者:于娟[1] 党延忠[1] 

机构地区:[1]大连理工大学系统工程研究所,大连116024

出  处:《系统工程理论与实践》2010年第1期105-111,共7页Systems Engineering-Theory & Practice

基  金:国家高技术研究发展计划(863计划)(2008AA04Z107)

摘  要:在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析,结果表明该方法能够提取得到电子文档中包括原子词与合成词在内的所有词语,并且准确率与召回率较之前的方法均有很大提高.优良的自动提词结果能够保证文本自动处理的性能,进而促进相关领域的自动化程度与性能的提高.Term extraction is one of the key technologies of automatically text processing, on which knowledge management and information retrieval are based. This paper proposes a new Chinese term extraction method. This method combines POS (Part-of-speech) analysis and string frequency statistics to determine whether a Chinese string in a document is a term or not, through the way, it extracts from the document terms including both atomic words and compound words. This paper explains the theory and the implement details of the new method and demonstrates its performance by comparing precision and recall rate of the calculation fesults with current representative methods. Experiments show that this method improves both precision and recall rates in term extraction. Better term extraction result means higher performance in automatically text processing, consequently, higher and better automation within related domains.

关 键 词:文本自动处理 词语提取 原子词 合成词 词性标记 

分 类 号:TP182[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象