基于条件随机场的法言法语实体自动识别模型研究  被引量:11

Automatic Recognition of Legal Language Entities Based on Conditional Random Fields

在线阅读下载全文

作  者:张琳[1] 秦策[2] 叶文豪[1] 

机构地区:[1]南京农业大学信息科学技术学院,南京210095 [2]南京师范大学法学院,南京210023

出  处:《数据分析与知识发现》2017年第11期46-52,共7页Data Analysis and Knowledge Discovery

基  金:国家社会科学基金项目"转型期公众道德需求的司法应对研究"(项目编号:13BFX006)的研究成果之一

摘  要:【目的】法言法语实体的自动识别是实现裁判文书文本挖掘的重要的基础性工作。【方法】采用爬虫方法获取数据,人工方式进行语料标注,利用NLPIR加载法律领域词典对语料进行分词,结合法言法语的内部和外部特征构建基于条件随机场的特征模板,自动识别语料中的法言法语。【结果】融入法言法语内部和外部特征的条件随机场模型,自动识别法言法语的实验效果良好,模型的调和平均值达到90%以上。【局限】法言法语实体自动识别模型在领域的扩展上有一定的局限性。【结论】基于条件随机场对法言法语实体实现自动抽取是可行的。[Objective] This paper aims to automatically identify the Legal Language Entities, which lays foundations for text mining of the Judgements. [Methods] First, we used a crawler to retrieve the needed data and manually marked the corpus. Then, we applied the NLPIR to load the legal field dictionary for corpus segmentation. Finally, we constructed the feature template based on the conditional random field and automatically recognize the Legal Language Entities. [Results] The conditional random field model with internal and external features of Legal Language could automatically identify the legal words, and its harmonic mean was over 90%. [Limitations] The proposed model has some limitations in field expansion. [Conclusions] It is feasible to automatically extract Legal Language Entities with the help of conditional random fields.

关 键 词:裁判文书 条件随机场模型 法言法语实体 

分 类 号:G254[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象