检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]东北石油大学,大庆163318
出 处:《科学技术与工程》2011年第9期2121-2124,共4页Science Technology and Engineering
基 金:中国博士后科学基金(20090460864)资助
摘 要:针对文本自动分类时可能存在一个文本属于多类的问题,提出了一种基于模糊向量空间模型和神经网络的文本自动分类方法。该方法采用模糊集理论,把特征项在文档中出现的位置作为反映文档主题的重要程度(隶属度),并在特征提取时充分考虑该位置信息,从而构造出模糊特征向量,使文本分类更接近手工分类方法。建立的网络由输入层、隐含层和输出层组成,其中输入层完成分类样本的输入,隐含层提取输入样本所隐含的模式特征,输出层用于输出分类结果。实验部分以万方数据库中部分文档数据为例验证了该方法的有效性。A kind of text classification method based on fuzzy vector space model and neural networks is proposed to counter the problems that a text can be belongs to many types during the text classification.Fuzzy theory is adopted in the method to look the occuring position of feature items in text on as the important degree(membership) reflecteing text subject,and fully considered the position information while the features are extracted,thus the fuzzy feature vectors are constructed,as a result,the text classification is close to the manual classification method.The established networks are constituted of input layer,hidden layer and output layer,the input layer completes the inputs of classification samples,hidden layer extracts the implicit pattern features of input samples,the output layer is used to output the classification results.Finally the effectiveness of this method is proved by some documents of Wanfang data in experimental section.
关 键 词:文本分类 模糊向量空间 神经网络 模糊特征向量 特征提取 隶属度
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249