中文问答系统中基于SLM的信息检索及其平滑技术研究  

Research on SLM-IR and Its Smoothing Techniques in Chinese QA Systems

在线阅读下载全文

作  者:钱如栏[1] 董云耀[1] 

机构地区:[1]杭州电子科技大学计算机学院,浙江杭州310018

出  处:《计算机工程与科学》2010年第1期136-140,共5页Computer Engineering & Science

摘  要:为适应中文问答系统中汉语语言的特点,本文对信息检索模块进行了深入分析,相对于传统的主流信息检索模型,找到了一种更有效的检索方法——基于SLM的语言模型的信息检索技术(SLM-IR)。同时,研究了N-gram模型的参数N选取及其几种主要的数据平滑技术,并通过对各种数据平滑方法的实验对比,讨论了影响这些数据平滑方法性能的有关因素,如训练集规模等,最终给出了在不同情况下的最优选择方案。In order to fit in with the Chinese language characteristics in the QA systems, this paper thoroughly analyzes the information retrieval model. After analyzing and comparing the traditional main IR models, we get a more efficiency IR method, which is SLM-IR (an information retrieval method based on statistical language modeling). In addition, we study the best order number N in N-gram and its main data smoothing techniques, compare them by test results, and discusse the relevant factors which affect the data smoothing method, such as the scale of training. Finally, the best smoothing techniques in different conditions are given.

关 键 词:信息检索 统计语言模型 N—gram SLM-IR 平滑技术 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象