基于多特征融合的先秦典籍汉英句子对齐研究  被引量:9

Chinese-English Sentence Alignment of Ancient Literature Based on Multi-feature Fusion

在线阅读下载全文

作  者:梁继文 江川 王东波[2,3] Liang Jiwen;Jiang Chuan;Wang Dongbo(School of Information Management,Nanjing University,Nanjing 210023,China;College of Information Science&Technology,Nanjing Agricultural University,Nanjing 210095,China;Facultair Onderzoekscentrum ECOOM,KU Leuven,Leuven B-3000,Belgium)

机构地区:[1]南京大学信息管理学院,南京210023 [2]南京农业大学信息科学技术学院,南京210095 [3]鲁汶大学比利时政府研发监测中心(ECOOM),鲁汶B-3000

出  处:《数据分析与知识发现》2020年第9期123-132,共10页Data Analysis and Knowledge Discovery

基  金:国家自然科学基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(项目编号:71673143)的研究成果之一。

摘  要:【目的】实现先秦典籍古文-英文双语句子自动对齐,为构建典籍双语句级平行语料库、跨语言检索提供支持。【方法】将典籍汉英句子自动对齐问题视为候选句对分类问题,根据实验语料特点,结合已有研究选取对齐句对特征,基于"整体分类"与"序列标注"两种不同的理念,识别候选句对中的对齐句对。【结果】在序列标注实验中,LSTM-CRF模型的句子对齐效果最佳F值为92.67%;在整体分类实验中,SVM识别效果最佳F值为90.63%;在特征组合实验中,同时使用4种特征的F值为91.01%,效果优于其他特征组合。【局限】有待补充类型更丰富的原始语料。【结论】融合4种特征的LSTM-CRF神经网络模型能够有效识别古文-英文对齐句对,实现典籍双语句子自动对齐。[Objective]This paper proposes a method automatically aligning Chinese sentences from Pre-Qin Literature with their English translations,aiming to construct bilingual sentence-level parallel corpus and support cross-language retrieval.[Methods]First,we modified classification method for parallel sentence pairs to align bilingual sentences from historical literature.Based on the characteristics of bilingual corpus,we retrieved features of bilingual sentence pairs.Finally,with"sequence labeling"and"overall classification",we identified aligned pairs from candidate sentences.[Results]In the sequence labeling experiment,the LSTM-CRF model yielded the best performance with its F value reaching 92.67%.In the overall classification experiment,the SVM had the best results with a F value of 90.63%.In the experiment combining all four features,the F value was91.01%.[Limitations]The corpus size needs to be expanded.[Conclusions]The LSTM-CRF model with four features could effectively align ancient Chinese sentences with their English translations.

关 键 词:句子对齐 多语言信息处理 汉英平行语料 先秦典籍 数字人文 

分 类 号:G351[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象