一种利用注疏的《左传》分词新方法  被引量:20

A Method of Segmentation on "Zuo Zhuan" by Using Commentaries

在线阅读下载全文

作  者:徐润华[1] 陈小荷[1] 

机构地区:[1]南京师范大学语言信息科技研究中心,江苏南京210097

出  处:《中文信息学报》2012年第2期13-17,45,共6页Journal of Chinese Information Processing

基  金:国家"211工程"三期重点学科建设项目"语言科技创新及工作平台建设"子课题"先秦文献词汇统计与知识检索系统";江苏高校哲学社会科学重点研究基地重大项目"先秦文献词汇知识挖掘"(2010JDXM023)

摘  要:先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。该文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达到89.0%,较之baseline有明显提升。该方法无需训练语料,利用注疏文献辅助分词的思想也适合推广到其他先秦文献的自动分词任务中去。Commentaries of Pre-Qin documents contains a large lexical semantic knowledge which provide substantial evidences for segmentation.This paper uses "Zuo Zhuan" as the research object and proposes a new segmentation method based on commentaries aligned to "Zuo Zhuan".Segmentation F-score reaches 89.0%,much higher than the baseline in the experiments.This method needs no training,and the idea of commentaries assisted segmentation is can be applied to the segmentation of other pre-Qin documents.

关 键 词:先秦文献 注疏文献 自动对齐 自动分词 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象