采用半随机特征采样算法的中文书写纹识别研究被引量：1

Research of Chinese Writeprint Recognition Using Semi-random Feature Sampling Algorithm

机构地区：[1]电子科技大学中山学院计算机学院,中山528402 [2]华中师范大学国家数字化学习工程技术研究中心,武汉430079 [3]华中师范大学计算机科学系,武汉430079

出　　处：《计算机科学》2013年第2期120-123,152,共5页Computer Science

基　　金：国家“核高基”重大专项基金项目(2010ZX01045-001-005);国家“十二五”科技支撑计划项目(2011BAK08B03);广东省教育部产学研结合示范基地项目(2011B090500017);教育部-英特尔信息技术专项科研基金项目(MOE-INTEL-11-02)资助

摘　　要：N-gram字符序列能有效捕捉文本中作者的个体风格信息,但其特征空间稀疏度高,且存在较多噪音特征。针对该问题,提出一种基于半随机特征采样的中文书写纹识别算法。该算法首先采用一种离散度准则为每个作者选取一定粒度的个体特征集,然后将个体特征集以一种半随机选择机制划分成多个等维度的特征子空间,并基于每个子空间训练相应的基分类器,最后采取多数投票法的融合策略构造集成分类模型。在中文真实数据集上与基于随机子空间和Bagging算法的集成分类器进行了对比试验,结果表明,该算法在正确率和差异度方面优于随机子空间和Bag-ging算法,并且取得了比单分类模型更好的识别性能。Character N-gram can be used to effectively capture individual-author stylistic information in texts. To deal with the problems of high-sparsity and high-redundancy in the feature space, an ensemble classification algorithm based on semi-random feature sampling was proposed in this study. Firstly, the whole feature space is divided into several indi- vidual-author feature sets by a divergence rule. Then each of them is divided into equally sized subspaees by a semkran- dom selection method, and a base classifier is trained on each random subspaee. Finally, these base classifiers are corn bined lo construct an ensemble via the majority voting method. To examine the algorithm, the experiment was conducted on a real-life dataset. It is observes that the algorithm achieved a considerable improvement in accuracy and robustness compared with the benchmark technique in Chinese writeprint identification （random subspaee method, bagging and SUDDort vector machine）.

关键词：书写纹半随机特征采样个体特征集集成分类器差异度

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

采用半随机特征采样算法的中文书写纹识别研究被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

采用半随机特征采样算法的中文书写纹识别研究 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

采用半随机特征采样算法的中文书写纹识别研究被引量：1