检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杜权 曾信 李北 刘辉 李垠桥 肖桐 朱靖波 DU Quan;ZENG Xin;LI Bei;LIU Hui;LI Yinqiao;XIAO Tong;ZHU Jingbo(NLP Laboratory,Northeastern University,Shenyang,Liaoning 110819,China)
机构地区:[1]东北大学自然语言处理实验室,辽宁沈阳110819
出 处:《中文信息学报》2024年第8期68-75,共8页Journal of Chinese Information Processing
基 金:国家自然科学基金(61876035,61732005)。
摘 要:标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F_(1)值等指标来衡量标记语言格式还原效果。实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近100%。Compared with plain text translation tasks,the markup language translation is obstructed by low translation quality caused by complex and diverse markup formats.This paper proposes a combined generalization-based markup language translation method.As for the format restoration of markup language,this paper proposes to measure its quality by tag position precision,accuracy,recall rate and F_(1) value.Compared with truncation-based,word alignment-based and existing generalization methods,the proposed method has significant improvement in BLEU,and the format restoration rate is close to 100%.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49