检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:盛晨 孔芳 周国栋 SHENG Chen;KONG Fang;ZHOU Guodong(Natural Language Processing Lab,School of Computer Science and Technology,Soochow University,Suzhou 215006)
机构地区:[1]苏州大学计算机科学与技术学院自然语言处理实验室,苏州215006
出 处:《北京大学学报(自然科学版)》2019年第1期15-21,共7页Acta Scientiarum Naturalium Universitatis Pekinensis
基 金:国家自然科学基金(61472264;61751206);国家重点研发计划(2017YFB1002101)资助
摘 要:针对中文零指代问题,从篇章视角进行理论分析,并完成中文篇章零元素语料库(ChineseDiscourse ZeroCorpus,CDZC)的构建工作。首先,整理和分析已有的理论研究以及语料资源,探究篇章层面中文零元素语料库标注的必要性。然后,采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式,完成CDZC语料库的构建。最后,对该语料库进行一系列详细的统计分析。结果表明,CDZC能够充分反映出中文零元素省略的语言特点,为相关研究提供语料资源支持。To better deal with Chinese zero elements,this paper makes a theoretical analysis from discourse perspective and completes the construction of the Chinese Discourse Zero Corpus(CDZC).First,the necessity of corpus construction has been explored based on the research of existing theoretical and data sources.Then,the topdown and forword search annotation strategy and the combination of the human machine are used to complete corpus annotation.Finally,the detailed statistics analysis shows that CDZC can fully reflect the characters of Chinese linguistic and provide corpus resources for related research.
关 键 词:中文零元素 篇章视角 语料库构建 中文篇章零元素语料库
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117