构建生物医学文献相关性数据库  

A Related Retrieval Database for Medical Literatures Based on Suffix Tree VSM Model

在线阅读下载全文

作  者:赵国光[1] 尹湘舟[2] 余希田[3] 刘金刚[1] 

机构地区:[1]首都师范大学计算机科学联合研究院,北京100048 [2]湖南湘潭湘潭大学信息工程学院,411105 [3]中国协和医科大学/中国医学科学院医学信息研究所,100020

出  处:《微计算机信息》2010年第12期158-160,共3页Control & Automation

摘  要:本文利用后缀树向量空间模型(VSM),为每篇文献建立相应的基于内容的向量模型,通过夹角余弦得出文献之间的相似度,再结合中国医学科学院医学信息研究所提供的文献数据,最终构建出医学文献相关性数据库。该模型与传统的基于词表的VSM相比,最大的优点表现为:在获得文本的向量表示时,不需要基于词表的分词和特征项提取,而其这一特点正好能够解决现在相关性数据库中词表的建立和维护问题,从而使得该模型能够实时获得文本的向量表示。该模型的另外一个优点是与语种无关。This paper constructs a database for the relevance of literature provided by the Institute of Medical Information of Chinese Academy of Medical Sciences(IMICAMS).We establish a content-based vector model for each document using the suffix tree VSM,and calculate the cosine angle as the relevance between documents.Compared with the traditional VSM based on vocabulary,our model doesn’t need the automatic word segmentation and the text feature extraction while establishing the vector representation for a document,and this advantage can be used to solve the problems of building and maintaining thesaurus during constructing the Related Articles Database,and thus,to acquire the vector representation of a document in real-time won’t be a problem.Besides,our model is independent of languages.

关 键 词:相关性 后缀树 向量空间模型 特征项权重 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象