检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]天津工业大学计算机科学与软件学院,天津300387
出 处:《仪器仪表用户》2017年第12期1-5,共5页Instrumentation
摘 要:由于短文本存在的特征稀疏的问题,所以导致了大多在长文本上能够取得优秀效果的算法在短文本上都不能取得很好的效果。基于前人在词向量嵌入技术上的研究提出改进方案,并从词向量的角度去扩充短文本的特征,意在缓解短文本特征稀疏的问题,在原始的短文本词向量的基础上引入主题向量,使得短文本得到了语义层面的特征扩充。并且基于短文本上下文内容较少的特点,选用了特征抽取能力很强的卷积神经网络作为最终的分类器。最终通过实验证明,该分类方案的分类效果较其他目前的研究成果有所提高。Most of classification algorithms which can achieve excellent results in long texts can not achieve the satisfied result in short texts, because short text can not provide enough features for classification. This paper proposes an improvement scheme based on previous work on word embedding to enrich short texts, which is intented to solve the feature sparseness problem. Besides, this paper employes topic vector to improve the feature of short texts, which means the semantic features of short texts are extended. Finally, the CNN(convolutional neural network), the feature extraction capability is very strong, is employed as the classifier for short text classification. On an open short text classification dataset, we compared the proposed framework with other baselines, and experimental results validate the effectiveness of our method.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.227