检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:袁晓峰[1]
机构地区:[1]盐城师范学院信息科学与技术学院,江苏盐城224002
出 处:《成都大学学报(自然科学版)》2010年第3期249-252,共4页Journal of Chengdu University(Natural Science Edition)
摘 要:设计了一种基于主题的Web文本聚类方法(HTBC):首先根据文本的标题和正文提取文本的主题词向量,然后通过训练文本集生成词聚类,并将每个主题词向量归类到其应属的词类,再将同属于一个词类的主题词向量对应的文本归并到用对应词类的名字代表的类,从而达到聚类的目的.算法分四个步骤:预处理、建立主题向量、生成词聚类和主题聚类.同时,对HTBC与STC、AHC、KMC算法从聚类的准确率和召回率上做了比较,实验结果表明,HTBC算法的准确率较STC、AHC和KMC算法要好.A clustering method-HTBC was devised based on theme.It extracts the Keywords according to the title and the main body of the document,trains the text sets to generate the word clustering,classifies each keyword to responding word cluster,combines the same thesis attribute to word cluster and finally realizes clustering.There are four steps for HTBC such as pretreatment,constructing the theme vector,generating the word cluster and theme clustering.The experimental data indicate HTBC are better than K-Means,AHC and STC in terms of accuracy and recall ratio after comparision.
关 键 词:HTBC算法 WEB文本聚类 主题 搜索引擎 互信息
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.185