检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:毛存礼[1,2] 梁昊远 余正涛[1,2] 郭军军 黄于欣 高盛祥[1,2] MAO Cunli;LIANG Haoyuan;YU Zhengtao;GUO Junjun;HUANG Yuxin;GAO Shengxiang(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500 [2]昆明理工大学云南省人工智能重点实验室,云南昆明650500
出 处:《中文信息学报》2021年第2期89-98,共10页Journal of Chinese Information Processing
基 金:国家重点研发计划(2018YFC0830105,2018YFC0830101,2018YFC0830100);云南省应用基础研究计划重点项目(2019FA023);云南省中青年学术和技术带头人后备人才项目(2019HB006);云南省高新技术产业专项(201606);云南省重大科技专项计划项目(202002AD080001)。
摘 要:神经主题模型能有效获取文本的深层语义特征,但现有的神经主题模型忽略了外部知识对获取主题分布的帮助。因此,针对涉案主题分析任务,该文提出了一种基于神经自回归分布估计的涉案新闻主题模型构建方法。以案件要素作为外部知识对iDocNADEe模型进行了扩展,通过计算案件要素与主题词的相关度来构建注意力机制对iDocNADEe模型双向编码的隐状态进行加权,利用神经自回归算法计算加权后的主题词双向隐状态的自回归条件概率实现涉案新闻文本主题模型构建。实验结果表明,该文提出方法较基线模型困惑度降低了0.66%、主题连贯性提高了6.26%,并且在文档检索精确率方面也明显高于基线模型。The neural topic models can effectively obtain the deep semantic features of the text, but the existing topic models are defected in negligence of the contextual information and the external knowledge. This paper proposes a topic model of judicial news based on neural autoregressive distribution estimator. The iDocNADEe is expanded with case elements as external knowledge, the attention mechanism is constructed by calculating the correlation between case elements and topic-relevant words to adjust weights of the hidden states in iDocNADEe. Then, the neural autoregressive algorithm is applied to calculate the weighted autoregressive conditional probability of the bidirectional hidden state of topic-related words. Experimental results show that compared with the baseline model, the perplexity is reduced by 0.66%, and the topic coherence is improved by 6.26% with the proposed method, as well as a significant higher document retrieval accuracy.
关 键 词:案件要素 iDocNADEe 注意力机制 神经自回归分布估计 涉案新闻 主题模型
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229