检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京理工大学模式识别与智能系统研究所,北京100081
出 处:《计算机工程与应用》2008年第20期162-164,共3页Computer Engineering and Applications
摘 要:文本信息处理正朝着语义的方向发展,而当今主流的文本表示模型——向量空间模型(VSM)以单个词语作为特征项,这忽略了自然语言中词语之间的语义联系、导致文本中大量存在同义词与多义词现象,从而严重地降低了文本信息处理的精度。应用自然语言处理相关技术和成果,把概念和概念距离引入向量空间模型,从语义、概念的角度出发,以概念作为文本的特征项,建立基于概念的文本表示模型。实验证明:这种方法能较好地解决同义词和多义词问题、提高了文本分类的查全率和查准率。The information processing of text is advancing towards semantic direction,but nowadays the dominating model of text representation,which is called the Vector Space Model uses a single word to be the characteristic item.It neglects the lexical relation between words,thereby leading to a low precision of text information processing due to the fact that synonymy and polysemy exist in large numbers in natural languages.This paper uses the techniques and results of natural language processing,and introduces concept and distance of concept into the Vector Space Model.An improved model of text representation is then built based on concept as a characteristic item of the text from the perspective of semantics and concept.Proved by experlments,this method can resolve the synonymous and polysemantic problems commendably,improve the precision and recall to a great extent.
分 类 号:TP39[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3