检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]延边大学计算机科学与技术学科智能信息处理研究室,吉林延吉133002
出 处:《计算机工程与设计》2011年第12期4223-4226,4250,共5页Computer Engineering and Design
基 金:国家自然科学基金项目(69362001)
摘 要:为了实现学术主题相关的科技论文检索,提出了一种基于引文相关性排序的科技论文检索方法。自动抽取科技论文的结构信息,获得论文的标题、摘要、关键词和引文;根据引文与标题的相关性,评价引文的重要性,用引文的评价得分修正引文向量特征项的权重,构造引文的词项-文档关联矩阵,并利用奇异值分解方法构造引文的潜在语义空间,计算查询论文与文档库中论文的引文语义相关性;采用信息增益方法确定了引文相关性阈值,将引文相关性超过阈值的科技论文作为检索结果返回。实验结果表明,提出的检索方法的准确率、召回率、综合性能均高于基于概括性信息(标题、摘要、关键词)的检索方法。To implement academic-theme-based retrieval of sci-tech papers,a sci-tech papers retrieval method is proposed.Firstly,structure information of the sci-tech papers are extracted automatically to obtain title,abstract,Key words and references.Secondly,the importance of citations is evaluated in terms of the relevance between citations and title,and furthermore,term weights of citation vector are modified with evaluation scores,term-document matrix is constructed,which the latent semantic space is constructed employing SVD and semantic relevance of citation between retrieved sci-tech papers and those in document libraries is computed.Finally,the sci-tech papers which citation relevance exceeds the threshold determined by information gain method,are returned as the retrieval results.The experimental results show that the proposed retrieval method outperforms the method based on general information such as title,abstract,keywords.
关 键 词:潜在语义索引 引文相关性 奇异值分解 信息增益 文本检索
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229