检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:赵国光[1] 尹湘舟[2] 余希田[3] 刘金刚[1]
机构地区:[1]首都师范大学计算机科学联合研究院,北京100048 [2]湖南湘潭湘潭大学信息工程学院,411105 [3]中国协和医科大学/中国医学科学院医学信息研究所,100020
出 处:《微计算机信息》2010年第12期158-160,共3页Control & Automation
摘 要:本文利用后缀树向量空间模型(VSM),为每篇文献建立相应的基于内容的向量模型,通过夹角余弦得出文献之间的相似度,再结合中国医学科学院医学信息研究所提供的文献数据,最终构建出医学文献相关性数据库。该模型与传统的基于词表的VSM相比,最大的优点表现为:在获得文本的向量表示时,不需要基于词表的分词和特征项提取,而其这一特点正好能够解决现在相关性数据库中词表的建立和维护问题,从而使得该模型能够实时获得文本的向量表示。该模型的另外一个优点是与语种无关。This paper constructs a database for the relevance of literature provided by the Institute of Medical Information of Chinese Academy of Medical Sciences(IMICAMS).We establish a content-based vector model for each document using the suffix tree VSM,and calculate the cosine angle as the relevance between documents.Compared with the traditional VSM based on vocabulary,our model doesn’t need the automatic word segmentation and the text feature extraction while establishing the vector representation for a document,and this advantage can be used to solve the problems of building and maintaining thesaurus during constructing the Related Articles Database,and thus,to acquire the vector representation of a document in real-time won’t be a problem.Besides,our model is independent of languages.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.143