检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京邮电大学网络技术研究院,北京100876
出 处:《软件》2012年第11期202-205,共4页Software
摘 要:虽然针对中文文本的向量化技术已经比较成熟,但是由于短文本自身信息量少,特征项模糊等特点,使得用传统的文本向量化方法处理短文本会带来向量化后的高纬度以及向量的稀疏性等诸多问题。本文通过深入研究向量化的两个重要环节,即特征选取和权重计算,比较分析各自的利与弊。结合短文本的特点,在借鉴传统方法的思想,对针对特定主题下的短文本特征提取和权重计算方法都提出了改进的方法,在计算权重的时候考虑特征项长度带来的影响,并引入了词长因子的概念,之后通过实验数据验证方法的可行性和优越性。The Chinese text vectorization technology is relatively mature, the characteristics of short text makes traditional text vectorization method will bring a lot of problems to deal with short text. In this paper, in-depth study to quantify two important aspects, namely feature selection and weight calculation, comparative analysis of their pros and cons. According to the characteristics of the short text, put forward the improved feature extraction and weight calculation method, when calculate the weight, considering the impact of word length. And the introduction of the concept of the word-length factor. After by the experimental data verify the feasibility and advantages of the method.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30