结合半监督与主动学习的复杂名词短语识别  被引量:1

Combining semi-supervised and active learning for complex nominal phrase identification

在线阅读下载全文

作  者:姜亚辉[1] 姬东鸿[1] 

机构地区:[1]武汉大学计算机学院,湖北武汉430072

出  处:《计算机工程与设计》2015年第2期498-501,506,共5页Computer Engineering and Design

基  金:国家自然科学基金项目(61133012;61173095)

摘  要:为克服传统的全监督机器学习模型的训练依赖于大量的标注样本的弱点,给出一种半监督学习和主动学习相结合的算法。根据主动学习选择策略选择最有价值的句子来标注,结合半监督来充分利用未标注的句子。结合汉语语料的特点,改进主动学习选择策略。实验结果表明,与采用随机选择标注样本相比,在使用相同数目的训练样本的情况下,该算法可以使学习器的F-score调高10.2%,在分类器到达相同性能的情况下,人工标注量可以减少32%,学习器对标注样本的需求得到了有效降低。To minimize the scale of labeled samples,a recognition method of Chinese complex nominal phrases based on semi-supervised and active learning was proposed.The most informative sequences were selected to label and make full use of unlabeled sequences.And the query strategy was improved according to the characteristics of Chinese corpus.The experimental results show that,compared with usual random selection method,the F-score of the classifier rises by 10. 2% using the method proposed when adopting the same amount of training samples.In other words,for the same F-score,the amount of annotated samples can be reduced by 32%.

关 键 词:复杂名词短语 主动学习 半监督学习 条件随机域 选择策略 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象