检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]国家程控数字交换系统工程技术研究中心,河南郑州450000
出 处:《电子设计工程》2017年第24期6-10,共5页Electronic Design Engineering
基 金:国家自然科学基金资助项目(61171108);国家重点基础研究发展计划“973计划”基金资助项目(2012CB315901,2012CB315905);国家科技支撑计划(2014BAH30B01)
摘 要:基于用户画像的广告定向技术普遍应用于品牌展示和精准竞价广告,然而现有的用户搜索画像技术存在着特征维度大、矩阵稀疏的问题。针对这一问题,本文采用卡方检验和线性核支持向量机相结合的方法,首先利用结巴分词对搜索文本预处理,其次采用卡方检验进行特征选择,并采用支持向量机分类算法进行属性判定,最后进行了实验对比。实验表明卡方检验有效降低了特征维度,并提升了分类准确度;支持向量机在矩阵稀疏上分类性能优于其他常用的文本分类算法。The technology of orient advertising based on user profile is widely used in brandprecision auction advertising. But the current user profile technology is facing the problem of largdimension and sparse matrix. To solve this problem,we combined the Chi-square test and linear kernel support vector machine(SVM) , firstly we cut the search text with the help of jieba , then the chi square test was used for feature selection, and the support vector machine was used to determine attributes,finally contrastive experiments. Experimental results show that the chi square test can effectively reducethe dimensionality , and improve the classification accuracy. SVM performance better than other generally text classification algorithm in sparse matrix.
关 键 词:支持向量机HTF-IDF 用户画像 文本分类 卡方检验
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.218.36.242