面向司法领域的藏文事件数据集构建  被引量:1

Construction of Tibetan Event Dataset Oriented to the Judicial Field

在线阅读下载全文

作  者:高璐 赵小兵[3,4] GAO Lu;ZHAO Xiaobing(Dcpartmicnt of Chinese Minority Languages and Literature,Minzu University of China,Beijing 100081,China;Dcpartmicnt of Software,Handan University,Handan,Hebe 056005,China;Dcpartmicnt of Information Engineering,Minzu University of China,Beijing 100081,China;National Language Resource Monitoring&Research Center of Minority Languages,Beijing 100081,China)

机构地区:[1]中央民族大学中国少数民族语言文学学院,北京100081 [2]邯郸学院软件学院,河北邯郸056005 [3]中央民族大学信息工程学院,北京100081 [4]国家语言资源监测与研究少数民族语言中心,北京100081

出  处:《中文信息学报》2023年第8期34-42,51,共10页Journal of Chinese Information Processing

基  金:国家社会科学基金(22&ZD035)。

摘  要:为了构建高质量的藏文司法事件数据集,推动藏文司法事件抽取技术的进一步探索、评测与优化。该文面向藏文司法领域,以藏文刑事裁判文书为研究对象,设计了“类别分组-主题建模”两阶段的契合藏文司法实际的事件Schema;采用模型驱动的事件触发词预标注与事件要素人工标注相结合的半自动化数据标注方式,对1863篇藏文刑事裁判文书进行爬取、OCR、降噪、分析、多人协同标注及审核,构建了藏文司法事件数据集TiEvent。TiEvent共定义了3个大类、12个小类的事件类型,涵盖1863个藏文真实司法文本的2249个事件提及。BiLSTM、BiLSTM-CRF、CINO-CRF等事件抽取模型的实验结果表明,藏文司法事件触发词检测和论元识别的最高F1值分别为75.36%、70.98%。在藏文司法文本上,TiEvent具有较高的事件覆盖度和事件要素完整度,能够满足藏文司法事件抽取工作的基本需要。Aims to build a high-quality tibetan judicial event dataset,this article focuses on the Tibetan criminal judgment documents and designs a two-stage event schema named"category grouping-theme modeling".A semi-automatic data annotation strategy is applied,consisting of model driven event trigger word pre-annotation and event element manual annotation.The Tibetan judicial event dataset TiEvent is constructed from 1863 Tibetan criminal judgment documents.TiEvent covers altogether 2249 events in 3 major categories and 12 subcategories.Experimental results of event extraction based on BiLSTM,BiLSTM-CRF and CINO-CRF show that the top F1 values of tibetan judicial event detection and argument recognition are 75.36%and 70.98%,respectively.

关 键 词:事件数据集 事件抽取 藏文信息处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象