置信度加权在线序列标注算法  被引量:3

Confidence-weighted Online Sequence Labeling Algorithm

在线阅读下载全文

作  者:汤步洲[1] 王晓龙[1] 王轩[1] 

机构地区:[1]哈尔滨工业大学深圳研究生院计算机科学与技术学科部,深圳518055

出  处:《自动化学报》2011年第2期188-195,共8页Acta Automatica Sinica

基  金:国家高技术研究发展计划(863计划)(2006AA01Z197);国家自然科学基金(60703015;60973076)资助~~

摘  要:序列标注问题是自然语言处理领域的基本问题之一.序列标注任务是将连续输入的不定长序列,标注成连续等长的标签序列.在在线序列标注方法的基本框架下,针对序列标注任务的特征稀疏特性,采用置信度加权分类算法思想,提出了一种新的线性判别式在线序列标注方法—置信度加权在线序列标注算法.该方法对每个特征权值参数引入一个概率置信度,取得了优于其他相关算法的性能.在中文分词,中文名实体识别以及英文组块分析等问题上,验证了本文方法的有效性.Sequence labeling problem is a basic problem in natural language processing field. The task of sequence labeling is to label an input sequence with a label sequence of the same length. Under the fundamental framework of sequence labeling methods, a new online sequence labeling linear algorithm -- confidence-weighted online sequence labeling algorithm--was presented for the characteristic of sequence labeling task with sparse features, based on confidence- weighted classification. This algorithm introduced a probabilistic measure of confidence for each parameter of features, and showed better performance than other relative algorithms. Experiments on Chinese segmentation, Chinese named entity recognition and English chunking validated the effectiveness of the proposed algorithm.

关 键 词:序列标注问题 自然语言处理 在线序列标注算法 置信度加权 概率置信度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象