检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西藏大学工学院计算机科学系,西藏拉萨850000 [2]西藏大学藏文信息技术研究中心,西藏拉萨850000
出 处:《中文信息学报》2011年第4期66-70,81,共6页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(61063015);教育部人文社科基金青年项目(10YJCZH033)
摘 要:在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。Large-scale real text processing has become a hotspot in the language information processing.To annotate the Tibetan Corpus is very important for the research on Chinese-Tibetan machine translation,information retrieval,text data mining and dictionary compilation.To facilitate the data exchange and sharing,this paper studies on on adopting the TEI coding for Tibetan corpusannotation,including the text attribute information and structure information.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222