检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:黄柯源 张浩军[1] 李世龙 李大岭 王家慧 HUANG Keyuan;ZHANG Haojun;LI Shilong;LI Daling;WANG Jiahui(College of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China)
机构地区:[1]河南工业大学信息科学与工程学院,河南郑州450001
出 处:《现代信息科技》2022年第5期95-97,共3页Modern Information Technology
基 金:国家第二批新工科研究与实践项目(E-CXCYYR20200937);国家自然科学基金面上项目(62073123);河南省科技攻关项目(212102210086);2020年河南省新工科研究与实践项目(2020JGLX037)。
摘 要:文章以高等教育政策文件为语料,在领域专家指导下结合高等教育政策文件文本特点,制定了一套标注体系和标注规范,开展了大规模的语料标注工作,构建了一个面向高等教育领域的标注语料库。该语料库共标注了137篇政策文件,包含5102个句子和3639个实体。同时,通过使用模型对语料库进行实验,探讨了语料库的可信度及预标注策略的可行性。结果表明,该语料库的F_(1)值达到75.31%,为进一步的高等教育领域实体识别研究提供了基础。This paper takes higher education policy documents as the corpus,and under the guidance of experts in the field,combined with the text characteristics of higher education policy documents,formulates a set of labeling system and labeling specifications,and carries out large-scale corpus labeling work,constructs an annotation corpus for higher education field.The corpus is annotated with a total of 137 policy documents,and contains 5102 sentences and 3639 entities.At the same time,by using the model to conduct experiments on the corpus,the credibility of the corpus and the feasibility of the pre-labeling strategy are discussed.The results show that the F_(1) number of this corpus reaches 75.31%,which provides a basis for further research on entity recognition in the field of higher education.
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49