基于关键词加权的法律文本主题模型研究  被引量:1

Research on Topic Model of Legal Texts Based on Keyword Weighting

在线阅读下载全文

作  者:张扬武 李国和[1,3] 王立梅[2] ZHANG Yangwu;LI Guohe;WANG Limei(College of Geophysics and Information Engineering,China University of Petroleum-Beijing,Beijing 102200;School of Information Management for Law,China University of Political Science and Law,Beijing 102249;Beijing Key Lab of Data Mining for Petroleum Data,China University of Petroleum-Beijing,Beijing 102200)

机构地区:[1]中国石油大学(北京)地球物理与信息工程学院,北京102200 [2]中国政法大学法治信息学院,北京102249 [3]中国石油大学(北京)石油数据挖掘北京市重点实验室,北京102200

出  处:《计算机与数字工程》2019年第5期1170-1174,1228,共6页Computer & Digital Engineering

基  金:国家科技重大专项项目(编号:2018YFC0831202);国家自然科学基金项目(编号:60473125);中国石油大学(北京)克拉玛依校区科研启动基金(编号:RCYJ2016B-03-001)资助

摘  要:为了降低法律文本中的无关词语对分类的影响和突出法律关键词汇的作用,采用主题模型建立一种基于法律词汇加权的文本分类模型。针对不同类别的法律文本的关键词的不同,在主题模型中提出了按关键词标记词到主题的文本集,并进行权值学习,用权值更新文档到主题的分布,从而提高了文档相似度计算的准确性。通过在Westlaw真实数据集上的计算分析,与传统的主题模型相比,加权的主题模型可以获得较好的困惑度和文本相似度。In order to reduce dimensionality of legal text and remove irrelevant words in the legal text classification,the topic model is used to establish a text classification model based on legal term weighting. According to the keywords difference of different categories of legal texts,a keywords marked distribution from words to topics is proposed in the topic model. And then learning for weights is carried out,weights are used to update the distribution of documents to topics,thereby improving the accuracy of calcula. tion on document similarity. Compared with the traditional topic model,the weighted topic model can get better perplexity and text similarity on the Westlaw database.

关 键 词:主题模型 法律文本 关键词 加权 困惑度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象