Wikipedia跨语言链接发现中的锚文本译项选择  

The Translation Selection of Anchor Text in Wikipedia Cross-Lingual Link Discovery

在线阅读下载全文

作  者:郑剑夕 白宇[1] 郭程[1] 张桂平[1] 

机构地区:[1]沈阳航空航天大学知识工程研究中心,辽宁沈阳110136

出  处:《中文信息学报》2016年第2期196-201,216,共7页Journal of Chinese Information Processing

基  金:国家科技支撑计划资助项目(2012BAH14F00);国家973计划资助项目(2010CB530401)

摘  要:Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。The research on Wikipedia Cross-Lingual Link Discovery(CLLD)is to automatically identify an anchor text related to topic from source language Wikipedia articles,and recommend a set of relevant target language links to the anchor text.It involves three key problems:anchor text identification,anchor text translation,and target link discovery.To deal with the multiple target translations of an anchor text,we propose a context-based translation selection method,which uses a vote method based on pointwise mutual information(PMI).Experiments on the translation selection of person names,terminology and abbreviation in Chinese and English Wikipedia articles,the results show that the method achieves good performances.

关 键 词:WIKIPEDIA 跨语言链接发现 锚文本 译项选择 逐点互信息 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象