检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《中文信息学报》2004年第1期20-25,41,共7页Journal of Chinese Information Processing
基 金:国家广电总局社科项目资助 (bw0 2 2 0 );国家语委科研规划项目资助 (YB10 5 - 6 1A)
摘 要:熟语是自然语言中普遍存在的语言现象。本文分析了国内现有语料库对熟语的标注方式 ,发现这种方式对语料库的进一步加工是有问题的。为了在语料库标注阶段把熟语问题处理好 ,本文从信息处理的角度将熟语中的成语、惯用语、歇后语、习用语、专门语以及缩略语归为固定语的范畴 ,进而提出根据固定语的语法功能给定词性标记 ,再根据它们的词汇特征给定词汇范畴标记的双层标记法 ,这样在一定程度上解决了熟语的语料库标注问题。Idiomaticity is a common phenomenon in natural languages. This paper analyses some known means of tagging the idiom in Chinese corpus. These tagging methods are problematic for the further syntactic tagging and parsing of corpus. To find a suitable solution for application in natural language processing, the authors introduce a new concept 'fixed expression', which consist of idioms, customary usages, two part allegorical sayings, terms and abbreviations. These fixed expressions have the same grammatical function as common words, thus we can tag them according to their function in text and give suitable vocabulary category of fixed expressions. This is called two level tagging method. The proposed solution is useful to build a parsed corpus as knowledge source of NLP.
关 键 词:人工智能 自然语言处理 熟语 固定语 标注 语料库
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249