高效的短文本主题词抽取方法  被引量:14

Efficient short texts keyword extraction method analysis

在线阅读下载全文

作  者:常鹏[1] 马辉[2] 

机构地区:[1]天津大学管理学院,天津300072 [2]天津城市建设学院管理系,天津300384

出  处:《计算机工程与应用》2011年第20期126-128,154,共4页Computer Engineering and Applications

基  金:国家自然科学基金(No.70771074)~~

摘  要:为了克服传统主题词抽取算法中的主题漂移与主题误判等问题,提出了利用词的共现信息来提高主题词抽取的准确率。根据词汇与文本中的上下文环境词汇的共现关系来调节词的权重评分,与文本主题具有较高共现率的词将被优先抽取为文本的主题词,从而提高文本的主题词抽取精度。经实验证明,提出的主题词抽取方法较一般主题词抽取方法准确率有所提升,特别是抽取文本篇幅较短时,该方法明显优于一般方法。In order to overcome the shortcoming of traditional methods of subject extraction, such as the theme drifting and theme misjudging,a new keywords extraction algorithm based on cooccurrence analysis is proposed in this paper.The word's weight is adjusted by its ability of associating with other words.The word that occurred with more words has greater impact and is extracted firstly.The experimental results show that the summarization generated by the improved algorithm gets better performance than other methods both in recall and precision.

关 键 词:抽取 词共现 主题抽取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象