检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:牛犇[1,2] 孔甜甜 周泽峻 刘圣龙 黄秀丽 江伊雯 NIU Ben;KONG Tiantian;ZHOU Zejun;LIU Shenglong;HUANG Xiuli;JIANG Yiwen(Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100085,China;Key Laboratory of Cyberspace Security Defense,Beijing 100085,China;School of Cyber Security,University of Chinese Academy of Sciences,Beijing 100049,China;Big Data Center of State Grid Corporation of China,Beijing 100052,China;State Grid Laboratory of Power Cyber-Security Protection and Monitoring Technology,State Grid Smart Grid Research Institute Co.,LTD,Nanjing,Jiangsu 210000,China)
机构地区:[1]中国科学院信息工程研究所,北京100085 [2]网络空间安全防御重点实验室,北京100085 [3]中国科学院大学网络空间安全学院,北京100049 [4]国家电网有限公司大数据中心,北京100052 [5]国网智能电网研究院有限公司电力网络安全防护与监测技术实验室,南京210000
出 处:《网络空间安全科学学报》2024年第3期53-66,共14页Journal of Cybersecurity
基 金:国家电网有限公司总部管理科技项目(5108-202218280A-2-393-XG)。
摘 要:语音通信已成为人们生活中不可或缺的一部分,但其中蕴含的语义、声纹等隐私数据也面临严重泄露风险。提出一种面向实时通信的语音数据隐私保护方法,从语义内容与声纹特征两个维度进行实时语音数据的隐私保护。该方法采用语音识别技术,实现了文本域上的语义内容脱敏工作。在通过计算文本嵌入向量间的相似度推断敏感词信息的基础上,用户可以通过指定敏感词来实现个性化隐私保护。同时,该方法结合了基于语义相似度与随机字符两种方式将敏感内容替换为安全词的语义内容脱敏算法,并基于深度学习模型的语音合成技术与语音引擎两种方式实现了声纹特征的匿名化处理。实验证明,该方法支持根据隐私级别与时间开销选择语义脱敏和声纹匿名;尤其当获取语音识别结果的时间在原本时间的30%~50%之间时,可以较好地平衡识别准确度与时间开销。Voice communication has become an indispensable part of daily life,but the privacy data it contains,such as semantic content and voiceprints,faces significant risks of leakage.A real-time voice data privacy protection method for real-time communication,addressing privacy concerns from both semantic content and voiceprint perspectives was proposed.The method utilizes speech recognition technology to perform semantic content desensitization in the text domain.Detecting sensitive information by calculating the simi-larity between text embedding vectors,on this basis,users can specify sensitive words to achieve personalized privacy protection.Additionally,this approach combines semantic content desensitization algorithms that replace sensitive content with secure words using both semantic similarity and random characters.It employs deep learning-based speech synthesis technology and voice engines to anonymize the voiceprint features of audio data.Experimental results demonstrate that the method allows for the selection of semantic desensitization and voiceprint anonymization based on privacy levels and time constraints.Notably,when the time required to obtain speech recognition results is between 30%to 50%of the original time,this method effectively balances recognition accuracy and time overhead.
关 键 词:语音数据 隐私保护 语音识别 语义脱敏 语音合成
分 类 号:TP309[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.144.124.142