针对特定主题的短文本向量化  被引量:5

Quantify the Short-text for a Specific Topic

在线阅读下载全文

作  者:田瑞[1] 闫丹凤[1] 

机构地区:[1]北京邮电大学网络技术研究院,北京100876

出  处:《软件》2012年第11期202-205,共4页Software

摘  要:虽然针对中文文本的向量化技术已经比较成熟,但是由于短文本自身信息量少,特征项模糊等特点,使得用传统的文本向量化方法处理短文本会带来向量化后的高纬度以及向量的稀疏性等诸多问题。本文通过深入研究向量化的两个重要环节,即特征选取和权重计算,比较分析各自的利与弊。结合短文本的特点,在借鉴传统方法的思想,对针对特定主题下的短文本特征提取和权重计算方法都提出了改进的方法,在计算权重的时候考虑特征项长度带来的影响,并引入了词长因子的概念,之后通过实验数据验证方法的可行性和优越性。The Chinese text vectorization technology is relatively mature, the characteristics of short text makes traditional text vectorization method will bring a lot of problems to deal with short text. In this paper, in-depth study to quantify two important aspects, namely feature selection and weight calculation, comparative analysis of their pros and cons. According to the characteristics of the short text, put forward the improved feature extraction and weight calculation method, when calculate the weight, considering the impact of word length. And the introduction of the concept of the word-length factor. After by the experimental data verify the feasibility and advantages of the method.

关 键 词:向量空间模型 特征选取 权重计算 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象