基于中心语块扩展的汉藏基本名词短语对的识别  被引量:1

Chinese-Tibetan Base Noun Phrase Alignment Based on Head-Phrase Extension

在线阅读下载全文

作  者:诺明花[1] 刘汇丹[1] 马龙龙[1] 吴健[1] 丁治明[1] 

机构地区:[1]中国科学院软件研究所

出  处:《中文信息学报》2013年第4期63-69,共7页Journal of Chinese Information Processing

基  金:国家重大科技专项资助项目(2010ZX01036-001-002;2010ZX01037-001-002);国家自然科学基金资助项目(61202219;61202220)

摘  要:该文提出汉藏基本名词短语对齐框架。从汉语基本名词短语出发,找藏文正确译文过程中,参考英汉短语对齐的方法,针对藏语的特殊性,提出基于中心语块扩展的藏语基本名词短语识别方法。提出词典与自动词对齐结果相结合的方法和基于序列相交的方法抽取藏语中心语块,再以扩展可信度为依据扩展中心语块。实验结果表明,基于序列相交的方法所抽取的汉藏基本名词短语对能够节省人工校正的工作量,有效辅助于汉藏基本名词短语库的建设。This paper presents a Chinese-Tibetan base noun phrase alignment method. It's a two-phase procedure: Chinese base noun phrases identification and finding their Tibetan correspondences. We propose head-phrase exten- sion based Tibetan base noun phrase identification method in accordance with the morphologic characteristics of Ti- betan. In the first phase, we use sequence intersection operation to get Tibetan head-phrase. In the second phase, head-phrase extension confidence is defined and applied to determine the boundary of correspondence. Experimental result indicates that sequence intersection outperforms other methods in head-phrase extension. Chinese-Tibetan base noun phrase produced by our method is effective in reducing subsequent manual check, facilitating the construc- tion of translation lexicon on phrase level.

关 键 词:藏文信息处理 基本名词短语 中心语块扩展 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象