藏语语料库TEI标记规范探讨  被引量:4

A Study on the TEI Standard Annotation for Tibetan Corpus

在线阅读下载全文

作  者:扎西加[1] 高定国[2] 

机构地区:[1]西藏大学工学院计算机科学系,西藏拉萨850000 [2]西藏大学藏文信息技术研究中心,西藏拉萨850000

出  处:《中文信息学报》2011年第4期66-70,81,共6页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(61063015);教育部人文社科基金青年项目(10YJCZH033)

摘  要:在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。Large-scale real text processing has become a hotspot in the language information processing.To annotate the Tibetan Corpus is very important for the research on Chinese-Tibetan machine translation,information retrieval,text data mining and dictionary compilation.To facilitate the data exchange and sharing,this paper studies on on adopting the TEI coding for Tibetan corpusannotation,including the text attribute information and structure information.

关 键 词:藏语 语料库 TEI标记 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象