新的关键字提取算法研究  被引量:6

New keyword extraction research

在线阅读下载全文

作  者:高俊波[1] 栾翠菊[1] 王晓峰[1] 

机构地区:[1]上海海事大学信息工程学院,上海200135

出  处:《计算机工程与设计》2008年第3期765-767,共3页Computer Engineering and Design

基  金:上海市重点学科建设基金项目(T0602);上海市教委科研基金项目(06FZ006)

摘  要:传统的关键字提取算法往往是基于高频词提取的,但文档中的关键字往往并不都是高频词,因此还需要从非高频词集中找出关键字。把一篇文档抽象为一个图:结点表示词语,边表示词语的同现关系;并基于文档的这种拓扑结构,提出了一种新的关键字提取算法,并和传统的关键字提取算法作了比较,在精确率、覆盖率方面均有不错的效果。Most ofkeyword extraction systems are utilized the high frequency for extracting keywords. Since the keywords of document are often not high-frequency words, we need to find keywords from set of non-high-frequency words. A document can be viewed as a graph: node can represent term and edge can represent the co-occurrence relation between terms. Based on this topology of document, a new keyword extraction algorithm is proposed and the traditional algorithms is compared. The experiment results show that our algorithm gets a certain advantage over the traditional algorithm in precision and coverage.

关 键 词:文本检索 关键字提取 偏向度 聚类 

分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象