检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘晓芳 欧荣安[2] 罗欢 刘芳婷 张辉极[1] 韩冰[2] 赵建强 LIU Xiao-fang;OU Rong-an;LUO Huan;LIU Fang-ting;ZHANG Hui-ji;HAN Bing;ZHAO Jian-qiang(Xiamen Meiya Pico Information Co.,Ltd.,Xiamen 361008,China;Guangzhou Institute of Criminal Science and Technology,Guangzhou 510030,China;Fuzhou University,Fuzhou 350108,China;Procuratorial Technology Department of the People’s Procuratorate of Xiamen,Xiamen 361008,China;Xidian University,Xi'an 710071,China)
机构地区:[1]厦门市美亚柏科信息股份有限公司,福建厦门361008 [2]广州市刑事科学技术研究所,广东广州510030 [3]福州大学,福建福州350108 [4]厦门市人民检察院检察技术信息部,福建厦门361008 [5]西安电子科技大学,陕西西安710071
出 处:《计算机技术与发展》2022年第4期44-50,共7页Computer Technology and Development
基 金:广州科技攻关重大专项(201903007);国家自然科学基金青年基金项目(G61801121)。
摘 要:如何从海量聊天数据获取聊天主题和聊天人物行为是案件智能化分析的热点问题之一。传统词嵌入方法,将文本中的所有词汇映射到向量空间,存在词汇特征冗余的问题。为了缓解这一问题,该文提出一种基于候选主题词的话题分类算法—CTW(candidate topic words)。该算法使用LDA主题模型抽取聊天文本中的关键词,使用预训练词向量得到显著的语义特征,同时为增强特征,将字符特征与获取的词汇特征进行融合。传统方法同时还存在只关注话题无法更精确地刻画人物行为的问题。针对该问题,该文提出了同时获取聊天话题和人物行为的方案:针对已归类的话题,该方案使用群成员互动强度、群成员活跃度作为人物行为网络中的权值,构建话题参与人的行为网络图;最后通过成员在群中的备注给人物赋予不同的社会标签,以丰富人物行为。实验表明,提出的话题分类算法,在实际搜集的数据集上比基线模型拥有更佳的性能,在获取群聊话题的同时得到了更丰富的人物行为描述。For the high incidence of new types of cybercrime,criminals use various chat groups to induce victims and commit crimes.The effective description and portrayal of the chat content and the character relationships will provide strong support for the case investigation.Generally traditional methods only focus on one aspect of chat topics or character behavior,which is unable to extract behaviors and chat topics at the same time quickly and effectively in forensics.Therefore,we propose a method-CTW(candidate topic words) to portray character relationships based on candidate keywords and group chat topics.Firstly,LDA model is used to extract key words,using the embedding of char and extracted key words for TextCNN to categorize topics.For categorized topics,we treat interaction intensity and group member activity as the weight value on the directed edges,not only create a network diagram of the character behavior of the participants in the group chat and get the members’ remarks in the group as social relationship labels which are put on the edges of the relationship diagrams.Experiments show that the method proposed shows good results on actual data sets,which can effectively portray character relationships based on the topics of group chats.
关 键 词:聊天主题 候选主题词 话题分类 人物行为 互动强度 群成员活跃度 社会标签
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38