语言标注框架评述与对比分析  

Commentary and Comparative Analysis of Language Labeling Framework

在线阅读下载全文

作  者:罗程多 赵耀[1] LUO Chengduo;ZHAO Yao(State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing, 100876 , China)

机构地区:[1]北京邮电大学网络与交换技术国家重点实验室,北京100876

出  处:《网络新媒体技术》2019年第3期63-66,22,共5页Network New Media Technology

基  金:国家"863计划"项目"融合网络业务体系的开发"(2011AA01A102)

摘  要:数据驱动是当前机器学习和人工智能技术的一大特征。高质量、大规模的标注数据集是领域技术发展的根基。在自然语言处理领域,标注数据的质量和数量直接决定了某个语言处理任务是否标准化,方法模型能否在公平条件下被评估和比较。而语言数据的人工标注是一个十分繁琐和复杂的过程,其中涉及诸如标注质量、标注管理、标注效率等诸多问题。为了解决这些问题,研究者提出了大量语言标注的工具和框架。本文介绍了语言标注的基本理论和技术,并对主流的两个语言标注框架GATE和UIMA进行评述和比较。Data-driven is an important characteristic of current machine learning and artificial intelligence techniques. High-quality, large-scale datasets are fundamentals of technical developments in many domains. In the domain of natural language processing, the quality and quantity of annotated data is crucial for the standardization of language processing task and the fair evaluations and comparisons of models. The manual annotation of language data is a tedious and complex procedure since it may face the problems of quality control, management and efficiency etc. To address these, many annotation tools and frameworks are proposed. This paper introduces the major problems of linguistic annotation and reviews two mainstream frameworks GATE(General Architecture for Text Engineering) and UIMA(Unstructured Information Management Architecture).

关 键 词:语言标注 文本标注 标注框架 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP18[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象