检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡韧奋[1,2] 李绅 诸雨辰 HU Renfen;LI Shen;ZHU Yuchen(Institution of Chinese Information Processing,Beijing Normal University,Beijing 100875,China;College of Chinese Language and Culture,Beijing Normal Univeristy,Beijing 100875,China;School of Chinese Language and Literature,Beijing Normal Univeristy,Beijing 100875,China)
机构地区:[1]北京师范大学中文信息处理研究所,北京100875 [2]北京师范大学汉语文化学院,北京100875 [3]北京师范大学文学院,北京100875
出 处:《中文信息学报》2021年第4期8-15,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金(62006021);教育部人文社会科学研究青年基金(18YJC751073);国家社会科学基金(18ZDA238)。
摘 要:古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。Sentence segmentation of ancient Chinese texts is a very difficult task even for experts in this area,since it not only relies on the sentence meaning and the contextual information,but also requires historical and cultural knowledge.This paper proposes to build knowledge representation of ancient Chinese with BERT,a deep language model,and then construct the sentence segmentation model with Conditional Random Field and Convolutional Neural Networks.Our model achieves significant improvements in all of the three ancient text styles.It achieves 99%,95%and 92%F1 scores for poems,lyrics and prose texts,respectively,out-performing Bi-GRU by 10%in lyrics and proses which are more difficult to segment.In further case studies,the method achieves good results in the difficult cases in published ancient books.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229