检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李斌[1] 闻媛[1] 宋丽[1] 卜丽君 曲维光[2,3] 薛念文
机构地区:[1]南京师范大学文学院,江苏南京210023 [2]南京师范大学计算机科学与技术学院,江苏南京210023 [3]闽江学院福建省信息处理与智能控制重点实验室,福建福州350121 [4]布兰迪斯大学计算机学院,美国沃尔瑟姆市02453
出 处:《中文信息学报》2017年第6期93-102,共10页Journal of Chinese Information Processing
基 金:江苏高校哲学社会科学研究项目(2016SJB740004);国家自然科学基金(61772278;61472191);福建省信息处理与智能控制重点实验室开放基金(MJUKF201705)
摘 要:作为一种新的句子语义表示方法,抽象语义表示(AMR)将一个句子抽象为单根有向无环图,目前已经建立了较大规模的英文语料库。然而,句子中的词语和AMR图的概念对齐信息缺失,使得自动分析效果和语料标注质量受到影响,同时中文尚无较大规模的AMR语料库。该文介绍了中文AMR语料库的构建工作,针对汉语特点调整了AMR的标注体系,增加对复句关系的标注,提出了融合概念对齐的一体化标注方案,解决了中英文输入法频繁切换的问题,增加了错别字纠正和未标注词高亮功能,提高了标注效率。然后,从CTB中选取了6 923句进行人工标注,形成中文AMR语料库,统计得到图和环的比例分别为48%和1%,以及利用对齐信息才能获取的非投影句的比例32%,为中文AMR的理论和自动分析研究奠定基础。As a new sentence-level meaning representation,abstract meaning representation(AMR)uses a rooted acyclic directed graph to represent the meaning of a sentence.A large AMR bank has been constructed for English,but the concepts of an AMR graph are not aligned to the words in a sentence,which increases the difficulty in manual annotation as well as automatic parsing.This paper describes the construction of a Chinese AMR corpus,based on guidelines adapted from English for Chinese-specific properties.We also designs an efficient annotation framework that incorporates concept-to-word alignment,taking advantage of the morphology-poor nature of Chinese.We have annotated the AMRs of 6 923 sentences selected from the Chinese TreeBank,among which 48% of the sentences are graphs,1% of the sentences are cycles,and 32% have non-projective subtrees.We plan to publicly release this data for linguistic and NLP research.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222