大语言模型水印技术研究进展  

Advances in Watermarking Techniques for Large Language Models

在线阅读下载全文

作  者:秦中元 王田田 刘伟强 张群芳 QIN Zhongyuan;WANG Tiantian;LIU Weiqiang;ZHANG Qunfang(School of Cyber Science and Engineering,Southeast University,Nanjing 211102,China;Artillery and Air-Defence Institute Nanjing Campus,Nanjing 211132,China)

机构地区:[1]东南大学网络空间安全学院,南京211102 [2]陆军炮兵防空兵学院南京校区,南京211132

出  处:《信息网络安全》2025年第2期177-193,共17页Netinfo Security

基  金:国家自然科学基金[U22B2026]。

摘  要:目前大语言模型LLM在文本生成、机器翻译和情感分析等领域取得了显著的成果。为了保护模型数据集与参数版权,防止未经授权的复制和使用,并验证消息的真实性,需要通过水印技术确保LLM的安全性和可信度。根据LLM运行的不同时间点,文章将当前水印技术分为嵌入模型训练的水印、推理阶段插入的水印和文本生成后的追加水印3类。针对水印的鲁棒性、保密性和有效性需求,文章对水印技术的评价指标进行了整理,并对现存的抗水印攻击进行综述,旨在进一步推动大语言模型水印技术的发展和应用。Currently Large Language Model(LLM)has achieved remarkable results in the fields of text generation,machine translation and sentiment analysis.In order to protect the model dataset and parameter copyrights,prevent unauthorized copying and use,and verify the authenticity of messages,watermarking techniques are needed to ensure the security and trustworthiness of LLM.According to the different points in time when LLM operates,this paper categorized the current watermarking techniques into three types,watermarks embedded in model training,watermarks inserted in the inference phase and additional watermarks after text generation.For the robustness,confidentiality and effectiveness needs of watermarking,this paper also organized the evaluation metrics of watermarking techniques and reviewed the existing anti-watermarking attacks.This paper provides a comprehensive overview of LLM watermarking techniques with the aim of further promoting their development and application.

关 键 词:大语言模型 文本水印 权重保护 AI鉴别 

分 类 号:TP309[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象