先秦文献《孟子》自动分词方法研究  被引量:20

Methodological Study of Automatic Word Segmentation in Pre-Qin Document Mencius

在线阅读下载全文

作  者:梁社会[1] 陈小荷[2] 

机构地区:[1]南京师范大学国际文化教育学院,江苏南京210097 [2]南京师范大学文学院,江苏南京210097

出  处:《南京师范大学文学院学报》2013年第3期175-182,共8页Journal of School of Chinese Language and Culture Nanjing Normal University

基  金:江苏省教育厅高校哲学社会科学基金项目(编号:2011SJB740010);教育部人文社会科学研究项目(编号:12YJCZH121);江苏高校重点研究基地重大项目(编号:2010JDXM023);"江苏高校优势学科建设工程资助项目"资助

摘  要:自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。The automatic word segmentation is a basic subject in Chinese language information processing. This paper discusses the automatic word segmentation technology applied in the pre - Qin text Mencius. It is based on condition random field statistic model and utilizes the relevant ancient annotations and comments. The effect of these two methods is significant. The F values of both words and short sentences have reached higher levels. When using different method in automatic segmentation on Mencius, we are the first to introduce the statistic indicator of the F value of short sentences besides that of words.

关 键 词:先秦文献《孟子》 自动分词 条件随机场 注疏文献 

分 类 号:H08[语言文字—语言学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象