句子对齐

作品数:64被引量:167H指数:9
导出分析报告
相关领域:自动化与计算机技术语言文字更多>>
相关作者:田生伟周兰江吕学强禹龙吐尔根·依布拉音更多>>
相关机构:新疆大学昆明理工大学哈尔滨工业大学苏州大学更多>>
相关期刊:《郑州大学学报(理学版)》《现代教育技术》《现代语言学》《中文信息学报》更多>>
相关基金:国家自然科学基金国家社会科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于强化学习的古今汉语句子对齐研究
《中文信息学报》2024年第12期30-38,63,共10页喻快 邵艳秋 李炜 
国家自然科学基金(61872402);教育部人文社科规划基金(17YJAZH068);北京语言大学校级项目(中央高校基本科研业务费专项基金)(21YBB19,18ZDJ03);模式识别国家重点实验室开放课题基金。
基于深度学习的有监督机器翻译取得了良好的效果,但训练需要大量高质量的对齐语料。对于中文古今翻译场景,高质量的平行语料相对匮乏,这使得语料对齐在该领域具有重要的研究价值和必要性。在传统双语平行语料的句子对齐研究中,传统方法...
关键词:双语对齐 预训练语言模型 强化学习 动态规划 
一种灵活高效的增量式Web平行语料抽取方法
《计算机科学》2024年第11期248-254,共7页刘小峰 郑禹铖 李东阳 
从Web中抽取平行语料对于机器翻译和其他多语语言处理任务来说非常重要,由此提出了一种从Web中灵活高效地增量抽取平行语料的方法,通过持续地对Common Crawl的Web抓取存档进行下载、扫描和分析统计,增量更新域名下的语言文本长度统计数...
关键词:平行语料抽取 句子对齐 语料库构建 机器翻译 WEB挖掘 
基于字符长度的朝汉双语语料库的构建被引量:1
《长江信息通信》2022年第11期57-59,共3页王琪 
句子级双文本语料库,已经成为机器翻译、双语词典编纂研究不可或缺的重要资源。目前,针对朝鲜语—汉语的相关研究比较少,文章面向朝汉平行语料库,采用基于字符长度的朝汉句子对齐算法,实现朝鲜语—汉语的句子的自动对齐,并提出一种句子...
关键词:朝汉句子对齐 平行语料 句子对齐判定 jaccard系数 
融合多源信息的平行语料库相似句段去重算法被引量:1
《计算机仿真》2021年第8期344-347,416,共5页左世亮 刘稳良 
上海市教委2020年上海高校实验技术队伍建设计划项目沪教委人([2020]30号)。
为降低多源信息背景下平行语料库重复句段对翻译工作的干扰,提升去重效率,设计一种基于词频-逆向文件频率技术的平行语料库相似句段去重算法。构建平行语料库句子一级对齐关联,设计概率模型,挑选最大概率路径为对齐输出,运用基于长度的...
关键词:多源信息 平行语料库 相似度 句段去重 句子对齐 
汉语–土耳其语句对齐自动校验方法研究
《现代语言学》2021年第4期984-989,共6页张贵林 易绵竹 李宏欣 陈靖博 
通过互联网获取的句对齐平行语料常存在对齐错位或译文质量差的问题,针对这一问题,本文提出了一种基于反向翻译的汉语–土耳其语平行语料自动校验方法。该方法通过在线机器翻译系统获取反向翻译结果,并将译文作为中间语言构建词袋模型...
关键词:汉语–土耳其语 机器翻译 双语语料库 句子对齐 
基于BERT和多相似度融合的句子对齐方法研究被引量:6
《数据分析与知识发现》2021年第7期48-58,共11页刘文斌 何彦青 吴振峰 董诚 
中国科学技术信息研究所重点工作项目(项目编号:ZD2020-18)的研究成果之一。
【目的】实现双语句子的自动对齐,为构建双语平行语料库、跨语言信息检索等自然语言处理任务提供技术支持。【方法】将BERT预训练引入句子对齐方法中,通过双向Transformer提取特征,每一个词汇由位置嵌入向量、单词嵌入向量、句子切分嵌...
关键词:BERT 机器翻译 句子对齐 平行语料 多相似度融合 
基于字向量和增强表示BiLSTM句子相似度研究被引量:2
《计算机技术与发展》2020年第10期97-100,186,共5页贾畅 叶飞 刘帅君 麻之润 
云南省重大科技专项(2018ZI001-2)。
目前分词工具在金融领域智能客服中无法对金融相关词汇进行有效切分,且基于单词的模型更容易受到数据稀疏性和词汇表外单词的影响。针对该问题,提出一种基于字向量和增强表示BiLSTM的句子相似度计算模型—EBiLSTM。该模型首先通过双向...
关键词:智能客服 句子相似度 循环神经网络 字向量 句子对齐 
基于多特征融合的先秦典籍汉英句子对齐研究被引量:9
《数据分析与知识发现》2020年第9期123-132,共10页梁继文 江川 王东波 
国家自然科学基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(项目编号:71673143)的研究成果之一。
【目的】实现先秦典籍古文-英文双语句子自动对齐,为构建典籍双语句级平行语料库、跨语言检索提供支持。【方法】将典籍汉英句子自动对齐问题视为候选句对分类问题,根据实验语料特点,结合已有研究选取对齐句对特征,基于"整体分类"与"序...
关键词:句子对齐 多语言信息处理 汉英平行语料 先秦典籍 数字人文 
融入多特征的汉-老双语对齐方法被引量:2
《中国水运(下半月)》2020年第3期78-80,共3页贾善崇 周兰江 张建安 周枫 
随着东盟与中国的经贸日益增加,语言作为两个国家交流的重要渠道,通过人工智能来解决双语问题,也正成为一门重要的研究。双语平行语料库的构建,是人工智能中自然语言处理的核心任务之一。双语语料库构建的核心之一是对齐,而句子对齐又...
关键词:老-汉双语句子对齐 句子对齐 平行语料库 Bi-LSTM 
基于混合方法及回归校验的汉维句子对齐被引量:1
《电视技术》2019年第13期1-5,共5页李斌 艾斯卡尔·艾木都拉 
国家自然科学基金项目(61562081)
该文探讨了汉语与维吾尔语原始语料处理中切分句子与对齐句子的难点及解决方案,提出了一种用于汉维平行语料库对齐的混合方法及回归校验法。该文基于锚点结合词典的方法进行句子对齐,并基于长度模型用普通最小二乘法做线性回归分析,计...
关键词:平行语料库 句子对齐 线性回归 翻译语料 
检索报告 对象比较 聚类工具 使用帮助 返回顶部