检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]沈阳航空航天大学知识工程研究中心,辽宁沈阳110136
出 处:《中文信息学报》2016年第2期196-201,216,共7页Journal of Chinese Information Processing
基 金:国家科技支撑计划资助项目(2012BAH14F00);国家973计划资助项目(2010CB530401)
摘 要:Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。The research on Wikipedia Cross-Lingual Link Discovery(CLLD)is to automatically identify an anchor text related to topic from source language Wikipedia articles,and recommend a set of relevant target language links to the anchor text.It involves three key problems:anchor text identification,anchor text translation,and target link discovery.To deal with the multiple target translations of an anchor text,we propose a context-based translation selection method,which uses a vote method based on pointwise mutual information(PMI).Experiments on the translation selection of person names,terminology and abbreviation in Chinese and English Wikipedia articles,the results show that the method achieves good performances.
关 键 词:WIKIPEDIA 跨语言链接发现 锚文本 译项选择 逐点互信息
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.147