检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张佩云[1,2] 陈恩红[2] 谢荣见[3] 宫秀文[1] 黄波[4]
机构地区:[1]安徽师范大学数学计算机科学学院,安徽芜湖241003 [2]中国科学技术大学计算机科学与技术学院,安徽合肥230026 [3]中国科学技术大学管理学院,安徽合肥230026 [4]南京理工大学计算机科学与技术学院,江苏南京210094
出 处:《系统工程与电子技术》2014年第3期591-597,共7页Systems Engineering and Electronics
基 金:国家自然科学基金(61201252;61203173;61073110);安徽省自然科学基金(1308085MF100);中国博士后科学基金(2013M531528);安徽省高校省级自然科学研究重点项目(KJ2011A128);安徽省科技厅软科学研究计划项目(11020503009)资助课题
摘 要:随着网络与信息技术的快速发展,导致网络上产生了大量的电子文本,而文本间的相似度计算是文本处理的一种重要手段。对于大规模的文本集,通常采用向量空间模型(vector space model,VSM)进行文本表示,但是该方法面临着文本向量维度较高及文本语义相似度难以度量的问题。提出一种改进的文本相似度计算方法,从大量的特征空间中选择出具有代表性的元数据特征向量元素,以降低向量空间的维度;构建领域概念树并设计基于领域概念树的文本相似度算法,对领域概念中广泛存在的同义词进行处理,以提高文本之间语义相似度度量的性能。实验结果表明:通过降维和概念相似度计算可提高文本相似度计算的性能。With the rapid development of network and information technology, a large number of electronic documents appear on the network, and the similarity computaion between the documents is an important means of document processing. For large-scale collection of documents, vector space model (VSM) is usually used for document representation, but the method is facing the problems of higher dimension and lack of semantic simi larity. An improved method for calculating the similarity of document is proposed. Metadata feature vectors are selected from a large number of representative feature space, so that it can reduce the dimension of the vector space. The domain concept tree is constructed and the algorithm for computing document similarity is designed. In order to improve the document semantic similarity of algorithm performance, the synonym concepts which exist in widespread areas are processed. The experimental results show that the proposed method can improve the performance of document similarity computation based on the dimensionality reduction and the concepts sim ilarity computing.
关 键 词:文本元数据 领域概念树 元数据特征向量 文本相似度
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.195