检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘聪 王永利[1] 周子韬 犹锋 张才俊 LIU Cong;WANG Yongli;ZHOU Zitao;YOU Feng;ZHANG Caijun(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China;Nari Group Corporation/State Grid Electric Power Research Institute Co.,Ltd.,Jiangsu Ruizhong Data Co.,Ltd.,Nanjing 210094,China;Grid Customer Service Center,Nanjing 210094,China)
机构地区:[1]南京理工大学计算机科学与工程学院,南京210094 [2]南瑞集团有限公司/国网电力科学研究院有限公司,江苏瑞中数据股份有限公司,南京210094 [3]国家电网有限公司客户服务中心,南京210094
出 处:《计算机工程与应用》2020年第20期132-137,共6页Computer Engineering and Applications
基 金:国家自然科学基金(No.61170035,No.61272420,No.81674099,No.61502233);中央高校基本科研业务费专项资金项目(No.30916011328,No.30918015103);南京市科技计划项目(No.201805036);“十三五”装备领域基金(No.61403120501);中国工程院2019年度咨询研究项目(No.2019-ZD-1-02-02)。
摘 要:针对传统敏感信息识别方法忽略了上下文语境和关键词词性而导致的漏报、误报问题,提出一种改进文本敏感信息识别的方法STEAP。构建暴恐敏感词典;通过敏感触发事件的抽取构建敏感触发事件序列,结合敏感触发事件及关键词的词性为待识别的信息分配权重;将构建的触发事件与词向量、暴恐敏感词典进行相似度的计算,结合权重获得文本的敏感度。实验结果证明,与传统敏感信息识别方法相比,STEAP方法能够有效识别出文本中的敏感信息,并且在精确度上得到了一定提高。Aiming at the problem of false negatives and false positives caused by the context of contextual context and keyword part-of-speech,this paper proposes a method(STEAP)to improve the recognition of text-sensitive information.It constructs a terrorism sensitive dictionary.Through sensitive triggering,the extraction of events constructs a sequence of sensitive trigger events,and combines the sensitive trigger events and the part of speech of the keywords to assign weights to the information to be identified.It calculates the similarity of the constructed trigger event with the word vector and the terrorism sensitive dictionary,and combines the weights to obtain the sensitivity of the text.Experimental results show that compared with the traditional sensitive information recognition method,the STEAP method can effectively identify the sensitive information in the text,and the accuracy is improved.
关 键 词:敏感触发事件 词性序列 敏感信息识别 文本相似度
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.127