检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王浩畅[1] 和婷婷 郑冠彧 WANG Hao-chang;HE Ting-ting;ZHENG Guan-yu(School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)
机构地区:[1]东北石油大学计算机与信息技术学院,黑龙江大庆163318
出 处:《计算机工程与设计》2024年第6期1757-1763,共7页Computer Engineering and Design
基 金:国家自然科学基金项目(61402099、61702093)。
摘 要:针对合同中实体表达形式复杂多变、识别粒度细的特点,及合同文本中实体较长问题,提出一种融合词汇边界信息的合同实体识别方法。利用预训练语言模型动态生成语义向量作为模型输入;运用相对位置编码对Transformer结构进行改进,使其在编码过程中融合词汇信息,进一步丰富语义特征;通过条件随机场(CRF)结构进行解码,得到输入序列的标签预测。实验结果表明,该方法可以有效确定合同文本中的实体边界,具有良好的泛化性能。To solve the problems of the complex and variable entity expression form in contract,the fine recognition granularity,and the long entity in contract texts,a contract entity recognition method based on lexical boundary information was proposed.The pre-trained language model was used to dynamically generate semantic vectors as model input.The relative position encoding was used to improve the Transformer structure to integrate lexical information in the encoding process and further enrich the semantic features.The conditional random field(CRF)structure was used for decoding,and the label prediction of the input sequence was obtained.Experimental results show that the proposed method can effectively recognize the entity boundary in the contract texts and has good generalization performance.
关 键 词:实体识别 合同文本 预训练语言模型 相对位置编码 转换器结构 词汇边界信息 条件随机场
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49