检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邓喆 周兰江[1] 周蕾越 DENG Zhe;ZHOU Lanjiang;ZHOU Leiyue(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500
出 处:《中文信息学报》2024年第8期84-92,共9页Journal of Chinese Information Processing
基 金:国家自然科学基金(61662040)。
摘 要:传统的命名实体识别系统主要是有监督的机器学习模型,这种方法需要大量的手动标注数据才能实现比较好的效果,难以适用于老挝语这种低资源语言。该文在对汉语和老挝语结构特点进行研究后,针对实验室目前获取的大量汉-老平行句对提出了一种基于跨语言学习的老挝语实体识别方法,该方法仅需要汉-老平行句对,而无需大量命名实体标注数据。首先,利用开源命名实体识别工具在汉语端进行命名实体标注;然后,利用跨语言表示和相似度计算将标注从汉语端投影到老挝语端并进行后处理;最后,使用融合词性特征和音节特征的字符向量训练命名实体识别模型。实验表明,基于跨语言学习的老挝语实体识别模型的F_(1)值达到了74.29%。The classical named entity recognition is based on supervised machine learning,which is difficult to be applied for low-resource languages such as Lao due to the reliance on annotated data.After analysing the structural features of Chinese and Lao,this paper proposes a named entity recognition method for Lao based on cross-language learning for a large Chinese-Lao parallel sentences.This method first uses the open source named entity recognition tool to annotate the Chinese sentences.Then,it uses the cross-language representation and similarity calculation to project the annotation from the Chinese-side to the Lao language.The final named entity recognition model for Lao is trained by character vector combined with the part-of-speech feature and syllable feature.Experiments show that the F_(1) value of the proposed method reaches 74.29%for Lao named entity recognition.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.221.133.22