检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连交通大学,大连116052 [2]山西大学,太原030006
出 处:《电脑开发与应用》2006年第10期2-3,6,共3页Computer Development & Applications
基 金:国家自然科学基金(60475022);山西省自然科学基金(20041041)资助
摘 要:针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的特殊词自动识别算法动态更新特殊词表及其权值,从而将特殊词信息与二分文本分类器相结合,提高对不健康文本的识别精度。结果表明,加入特殊词自动识别及判断,有效地提高了非法文本的识别精度。For the ill healthy content, this paper puts forward a special word automatic identifier method based on the symbol density through the research for the format of special words and the statistic and analysis of the frequency of the special words. First, we get a special words table by the training the set of the special texts. When the texts category has been performed, it can use the automatic identifier method to pick up the new special words. With the information of special words, the dimidiate text category can improve the precision to the ill health text. The result shows it has improved the precision of the text category.
关 键 词:特殊词 特征分析 符号密度 自动识别 二分文本分类器
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.90