检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:靳光瑾[1] 郭曙纶[1] 肖航[1] 章云帆[1]
出 处:《语言文字应用》2003年第4期16-24,共9页Applied Linguistics
基 金:国家语委"十五"重大项目<现代汉语语料库的建设及深加工>(项目编号:ZDA105-44);863计划的"智能化中文信息处理平台"课题(编号2001AA114040);973的"中文语料库建设"课题(编号G199803051A-05)资助。
摘 要:本文就制定《信息处理用现代汉语词类标记集规范》阐述我们对于规范问题的看法和做法。规范不是强制的 ,只规范加工结果 ,不规范加工过程。《规范》研制的目的在于为中文信息处理研究提供一套可以作为国家规范的现代汉语词类标记集体系 ,以便各个中文信息处理系统能够使用规范统一的词类标记集。这个《规范》试图解决词类标记的统一问题 ,该《规范》的特点是 :继承性 ,单功能性 ,通用性和可扩充性。本文还主要讨论了关于研制规范的一些原则性问题和小类标记问题 ,最后给出基于《规范》的词性标注在真实语料中的覆盖实验数据。This paper presents our comments on POS tag standardization and its methods. The standardization is by no means compulsory; it represents simply the output of processing and not the procedure. The main purpose for the standardization is to provide a POS tag as a norm for Chinese language processing, so that all the Chinese language processing can be normalized within this system. The characteristics for this standardization can be concluded as continuity, mono-functionality, generality and extensibility.The paper also discusses the problems of principle-setting and sub-categorization, and provides the experimental data of the coverage of the standardization-based POS tagging in corpus.
关 键 词:词类标记集 规范 语料库 《信息处理用现代汉语词类标记集规范》
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:13.59.173.30