检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘硕 王庚润 李英乐[1] 郭程远 LIU Shuo;WANG Gengrun;LI Yingle;GUO Chengyuan(Information Engineering University,Zhengzhou 450001,China)
机构地区:[1]信息工程大学,河南郑州450001
出 处:《信息工程大学学报》2021年第3期304-312,共9页Journal of Information Engineering University
基 金:国家自然科学基金资助项目(61803384)。
摘 要:随着信息技术的迅速发展,网络上产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。中文短文本相较于长文本,存在字数少、歧义多、特征稀疏和信息不规范等特点,导致使用传统文本分类技术效果不佳。首先介绍中文短文本分类技术的研究现状;其次围绕中文短文本分类的基本流程和关键技术进行阐述,并对文本预处理、文本表示、特征扩展和分类算法做出详细介绍;最后对中文短文本分类技术未来发展的趋势进行展望。With the rapid development of information technology,massive amounts of Chinese short text data have been generated on the Internet.Using Chinese short text classification technology to dig out valuable information from low-information data is a current research hotspot.Compared with long texts,Chinese short texts have the characteristics of fewer words,more ambiguities,sparse features,and irregular information,which leads to poor results using traditional text classification techniques.The research status of Chinese short text classification technology is first introduced in this paper.Then,the basic process and key technologies of Chinese short text classification are elaborated.Further,it gives a detailed introduction to text preprocessing,text representation,feature expansion and classification algorithms.Finally,the future development trend of Chinese short text classification technology is prospected.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.226.28.28