基于引文相关性排序的科技论文检索方法  被引量:3

Approach to sci-tech papers retrieval based on citation relevance ranking

在线阅读下载全文

作  者:尹盼盼[1] 崔荣一[1] 

机构地区:[1]延边大学计算机科学与技术学科智能信息处理研究室,吉林延吉133002

出  处:《计算机工程与设计》2011年第12期4223-4226,4250,共5页Computer Engineering and Design

基  金:国家自然科学基金项目(69362001)

摘  要:为了实现学术主题相关的科技论文检索,提出了一种基于引文相关性排序的科技论文检索方法。自动抽取科技论文的结构信息,获得论文的标题、摘要、关键词和引文;根据引文与标题的相关性,评价引文的重要性,用引文的评价得分修正引文向量特征项的权重,构造引文的词项-文档关联矩阵,并利用奇异值分解方法构造引文的潜在语义空间,计算查询论文与文档库中论文的引文语义相关性;采用信息增益方法确定了引文相关性阈值,将引文相关性超过阈值的科技论文作为检索结果返回。实验结果表明,提出的检索方法的准确率、召回率、综合性能均高于基于概括性信息(标题、摘要、关键词)的检索方法。To implement academic-theme-based retrieval of sci-tech papers,a sci-tech papers retrieval method is proposed.Firstly,structure information of the sci-tech papers are extracted automatically to obtain title,abstract,Key words and references.Secondly,the importance of citations is evaluated in terms of the relevance between citations and title,and furthermore,term weights of citation vector are modified with evaluation scores,term-document matrix is constructed,which the latent semantic space is constructed employing SVD and semantic relevance of citation between retrieved sci-tech papers and those in document libraries is computed.Finally,the sci-tech papers which citation relevance exceeds the threshold determined by information gain method,are returned as the retrieval results.The experimental results show that the proposed retrieval method outperforms the method based on general information such as title,abstract,keywords.

关 键 词:潜在语义索引 引文相关性 奇异值分解 信息增益 文本检索 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象