基于span机制与动态解码策略的中文敏感信息识别方法  

The Chinese Sensitive Information Recognition Based on Span Mechanism and Dynamic Decoding Strategy

在线阅读下载全文

作  者:钱明熙 梁颖红[1] QIAN Mingxi;LIANG Yinghong(Jinling Institute of Technology,Nanjing 211169,China)

机构地区:[1]金陵科技学院网络安全学院,江苏南京211169

出  处:《金陵科技学院学报》2025年第1期15-21,共7页Journal of Jinling Institute of Technology

基  金:国家自然科学基金青年项目(61402134);江苏省高等学校自然科学研究重大项目(22KJA520001);江苏省研究生科研与实践创新计划项目(SJCX24_1330)。

摘  要:数字技术的快速发展导致中文敏感信息泄露风险加剧,而传统基于匹配规则和机器学习的方法在复杂实体边界和中文上下文处理时存在不足。针对中文敏感信息的命名实体识别问题提出了一种基于span机制和动态解码策略的改进模型,在BERT+BiLSTM+CRF模型的基础上,加入span机制以更好地捕捉实体边界的位置信息。实验结果表明,相较于未加入span的基线模型,新模型的准确性和F 1值显著提升,F 1得分为96.7%,在处理长距离依赖关系和复杂实体时表现更加出色。With the rapid development of digital technology,the risk of Chinese sensitive information leakage has become increasingly severe.However,traditional methods based on rule matching and machine learning face challenges in handling complex entity boundaries and understanding Chinese contextual semantics.The paper proposes an improved named entity recognition(NER)model for Chinese sensitive information recognition,integrating span mechanism and dynamic decoding strategy.Building upon the BERT+BiLSTM+CRF model,we incorporate a span mechanism to better capture positional information of entity boundary.Experimental results reveal significant improvements in accuracy and F 1 score compared to the baseline model without span mechanism,achieving an F 1 score of 96.7%.It exhibits superior performance in processing long-range dependencies and complex entity structures.

关 键 词:中文敏感信息 命名实体识别 span机制 动态解码策略 上下文分析 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象