利用源域结构的粒迁移学习及词性标注应用  被引量:1

Exploiting Source Domain Structure in Granular Transfer Learning for Part-of-speech Tagging

在线阅读下载全文

作  者:孙世昶[1,2] 林鸿飞[1] 孟佳娜 刘洪波[3] 

机构地区:[1]大连理工大学计算机学院,辽宁大连116023 [2]大连民族大学计算机学院,辽宁大连116600 [3]大连海事大学信息科学技术学院,辽宁大连116026

出  处:《中文信息学报》2017年第1期66-74,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(61472058;61572102);辽宁省自然科学基金(201602195);中央高校自主基金(DC201502030202)

摘  要:迁移学习在一定程度上减轻了目标域的数据稀疏问题对泛化能力的影响,然而泛化能力的提高仍然受到负迁移等问题的影响。为了解决负迁移问题,该文提出使用源域结构的文本语料的信息粒化方法,用区间信息粒表示出源域数据集的结构对数据集中统计量的影响。然后提出区间二型模糊隐马尔可夫模型(Interval Type-2fuzzy Hidden Markov Model,IHMM)以处理区间信息粒。给出了IHMM的构建方法和去模糊化方法。在文本的词性标注任务中进行了多个实验,可以证实利用源域结构信息的粒迁移学习方法避免了负迁移,提高了模型的泛化能力。Transfer learning alleviates the data sparseness issue to some extent, but the generalization capacity is still hindered by negative-transfer problem. To address this issue, we propose an information granulation method for text corpora based on source domain structure. Interval granules are employed to express the influence of source domain structure on statistics of the dataset. We further design an Interval Type-2 fuzzy Hidden Markov Model (IHMM) to deal with the interval granules. Experiments on part-of-speech tagging proves that the proposed method avoids negative transfer and improves generalization capacity.

关 键 词:迁移学习 粒计算 区间信息粒 词性标注 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象