检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:化振红[1] HUA Zhen-hong(School of Literature,Nanjing Normal University,Nanjing 210097,China)
出 处:《烟台大学学报(哲学社会科学版)》2021年第5期117-124,共8页Journal of Yantai University(Philosophy and Social Science Edition)
基 金:国家社科基金重大招标项目“汉语史语料库建设研究”(10&ZD117);江苏省社会科学基金重点项目“基于汉语史语料库建设实践的中古汉语分词标准研究”(19YYA001)。
摘 要:将纸质印刷本的古代文献转换成便于电脑系统识别和应用的电子文本,是汉语史语料库的基础工作。根据中古汉语语料库建设的实践,这一转换过程中主要存在正文注释材料的处理、标记性附属材料的存删、异形字的选用、句子的分合、标点符号的处理等问题。既涉及到古代文献的撰写体例、语料性质、时代特性,也涉及到程序软件的自动识别过程。实践中需要兼顾语料库建设的可操作性、用户检索的便利性,在不违背文献学、语言学学理的前提下,对古代文献的文本进行一些必要的技术性处理。主要方法包括:保留同时代的注释材料,并添加相应的标记符号;剔除后人添加的或者时代不明的注释材料,以案语的形式保存原书文字;保留现有的佚文材料,添加相应的标记;删除正文中不具备汉语史语料价值的标记性文字;按照不同的优先层级选用字形,以《通用规范汉字表》及其附件《规范字与繁体字、异体字对照表》作为异体字、新旧字的标准字形。The basic work of Chinese language history corpus is to convert the printed paper documents into electronic text easy for computer identification and application.From the practice of medieval Chinese corpus construction,this article firstly addresses the following major problems in the conversion process:processing the annotations of the text,retaining or deleting attached marked materials,selecting variant characters,separating or combining sentences,processing punctuation and the like.The process involves not only the writing format,feature and time of documents,but also the automatic recognition process of program software.Therefore,it is necessary to take the operability of corpus construction and the convenience of retrieval into account,and conduct necessary technical processing for the text of ancient documents on the premise of not violating the theory of philology and linguistics.Finally,some technical processing methods are mentioned in this article.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7