新的基于中间语义的多语言信息检索模型  被引量:5

New Multilingual Information Retrieval Model Based on Latent Interlingua Semantics

在线阅读下载全文

作  者:邹小芳[1] 王明文[1] 左家莉[2] 余美华[1] 

机构地区:[1]江西师范大学计算机信息工程学院,江西南昌330022 [2]江西师范大学高等职业技术学院,江西南昌330027

出  处:《小型微型计算机系统》2010年第4期696-701,共6页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60663307);江西省自然科学基金项目(2007GZS0186);江西省科技攻关项目(2006-184);江西省教育厅科技课题(2007-129);江西省研究生创新专项资金项目(YC08A048)资助

摘  要:在统一框架下对双语语料库的平行文档进行分析建模,提取语言之间的潜在语义对应关系,在潜在中间语义空间中进行检索,从而实现跨语言信息检索.作者在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,对平行文档进行分析建模,在TREC5&9和SDA数据集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本文的模型表现了较好的性能.In this paper,we try to exploit parallel documents in the bilingual corpus in the unified framework,so as to extract latent semantic correspondences between the languages,and to retrieve information in a resulting latent interlingua semantic space.Cross-language information can be retrieved using such a space.To this end,we built a Chinese-English parallel corpus and used an English-French parallel corpus from the University of Montreal,which are exploited to perform Chinese,English and French trilingual cross-language information retrieval on TREC59 and SDA data sets.Our experiments show that the method can produce good results.

关 键 词:多语言信息检索 平行语料库 中间语义 潜在中间语义空间 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象