融入词集合信息的跨境民族文化实体识别方法  被引量:2

Cross-border National Cultural Entity Recognition Method with Word Set Information

在线阅读下载全文

作  者:杨振平 毛存礼[1,2] 雷雄丽 高盛祥[1,2] 陆杉 张勇丙 YANG Zhenping;MAO Cunli;LEI Xiongli;GAO Shengxiang;LU Shan;ZHANG Yongbing(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Kunming Metallurgical College,Kunming,Yunnan 650500,China)

机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学云南省人工智能重点实验室,云南昆明650500 [3]昆明冶金高等专科学校,云南昆明650500

出  处:《中文信息学报》2022年第10期88-96,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(61732005,61866019,61761026,61972186);云南省应用基础研究计划重点项目(2019FA023);云南特色产业数字化研究与应用示范(202002AD080001);云南省中青年学术和技术带头人后备人才项目(2019HB006)。

摘  要:跨境民族文化领域实体通常由描述民族文化特征的领域词汇组合构成,使用当前主流的基于字符表征的实体识别方法会面临领域实体边界模糊问题,造成实体识别错误。为此,该文提出一种融入词集合信息的跨境民族文化实体识别方法,利用领域词典获取的词集合增强领域实体的词边界和词语义信息。首先,构建跨境民族文化领域词典,用于获取词集合信息;其次,通过词集合注意力机制获取词集合向量之间的权重,并融入位置编码增强词集合位置信息;最后,在特征提取层融入词集合信息,增强领域实体边界信息并缓解仅使用字符特征表示所带来的词语义缺失问题。实验结果表明,在跨境民族文化文本数据集上所提出方法相比于基线方法的F_(1)值提升了2.71%。Cross-border national cultural entities are usually composed of domain words that describe national cultural characteristics.This paper proposes a cross-border national cultural entity recognition method with word set information obtained from domain lexicon.Firstly,a cross-border national cultural domain lexicon is constructed to obtain the word set information.Secondly,the weight between the word set vectors is obtained through attention mechanism,and the positional encoding is adopted.Finally,the word set information is incorporated into the feature extraction layer to enhance the domain entity boundary information and alleviate the problem of word information loss caused by using only character features.Experimental results show that,the F_(1) value of the proposed method is improved by 2.71%compared with the baseline method.

关 键 词:跨境民族文化 实体识别 词集合信息 领域词典 注意力机制 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象