基于关键词对逆文档频率的主题新颖度度量方法  被引量:45

Theme Novelty Measurement Based on Inverse Document Frequency of Keyword Pairs

在线阅读下载全文

作  者:杨建林[1] 钱玲飞[1,2] 

机构地区:[1]南京大学信息管理学院,江苏南京210093 [2]南京航空航天大学图书馆,江苏南京210016

出  处:《情报理论与实践》2013年第3期99-102,共4页Information Studies:Theory & Application

基  金:国家社会科学基金项目(项目编号:09BTQ020);江苏高校哲学社会科学研究重点项目(项目编号:2011ZDIXM035)资助

摘  要:文章吸收词频原则、逆文档频率原则以及共词分析的思想,提出解决文档主题新颖度量化问题的4个原则,在此基础上定义带时间戳关键词逆文档频率、带时间戳关键词对逆文档频率、文档新颖度等3个概念,给出文档新颖度的计算公式,并对该公式的实用性与合理性进行实证研究。实验结果表明:文中提出的文档主题新颖度量化方法是科学的、合理的、可操作的,但是,不规范的标引词标引、关键词个数过少等现象对主题新颖度计量结果的准确性影响较大。This paper absorbs the principle of term frequency, the principle of inverse document frequency and the idea of co- word analysis to propose 4 principles for solving the quantization of the novelty of the document theme. On this basis, the paper de- fines 3 concepts, namely, the referenced inverse document frequency of keyword, the referenced inverse document frequency of keyword pair, and the document novelty. The paper gives the calculation formula of the novelty of the document theme, and makes an empirical study of the practicality and rationality of the formula. The experimental results show that the proposed document theme novelty quantization method is scientific, reasonable and workable. However, the phenomena of non-standard indexing of keywords, too small number of keywords, ere, impact a lot on the accuracy of the novelty of the document theme.

关 键 词:文档主题新颖度 关键词 度量方法 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象