Web新闻语料分词和标注错误分析  被引量:4

Analysis of inaccurate style in processing Web true news text--about word segmentation and part of speech tagging

在线阅读下载全文

作  者:张永奎[1,2] 张彦[1,2] 安增波[3] 刘睿[1,2] 

机构地区:[1]山西大学计算机与信息技术学院 [2]计算智能与中文信息处理省部共建教育部重点实验室,太原030006 [3]中国人民解放军91708部队自动化工作站

出  处:《计算机工程与应用》2007年第15期166-169,共4页Computer Engineering and Applications

基  金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022) ;山西省自然科学基金(the Natural Science Foundation of Shanxi Province of China under Grant No.20041041);山西省回国留学人员基金(No.2002004)。

摘  要:通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。Eleven inaccurate styles are obtained through analyzing the processing of Web accidental news text,we propose resolvent for some styles.This not only illuminates the improvement of word segmentation and part of speech tagging methods in early process of corpora,but also provides references to automatic check,another branch of Chinese information processing.

关 键 词:中文信息处理 分词 词性标注 错误类型 Web突发事件新闻语料库 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象