检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]新疆警察学院信息安全工程系,新疆乌鲁木齐830011
出 处:《电子设计工程》2016年第16期109-112,共4页Electronic Design Engineering
基 金:新疆维吾尔自治区自然科学基金科研项目(2015211A016)
摘 要:针对网页中的维吾尔文不良文档信息的过滤问题,提出一种基于互信息和余弦相似度的不良文档信息过滤方案。首先,对输入文档进行预处理,过滤掉无用单词。然后,利用文档频率(DF)和互信息(MI)相结合,从文档中提取出高区分度的特征向量。最后,利用TF-IDF方法对特征进行加权,并计算加权特征向量与分类模板中的各类加权特征向量之间的余弦相似度,来分类文档并过滤掉不良文档信息。实验结果表明,该方案能够有效过滤不良维吾尔文文档,正确过滤率达到了83.5%。For the issues that the Uyghur bad text information filtering in the web page, an information filtering scheme based on mutual information and cosine similarity is proposed. First, the input document is preprocessed to filter out useless words. Then, the combination of document frequency (DF) and mutual information (MI) is used to extract the feature vector which with high degree of differentiation. Finally, the feature is weighted by the TF-IDF method, and calculate the cosine similarity between the weighted feature vector and the weighted feature vectors in the classification template, so as to classify the documents and filter out the bad document information. Experimental results show that the proposed scheme can effectively filter the bad Uyghur documents, and the correct filtering rate is 83.5%.
关 键 词:维吾尔文 不良文档过滤 互信息 余弦相似度 TF—IDF
分 类 号:TN918[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.19.237.16