检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]杭州电子科技大学计算机学院,浙江杭州310018
出 处:《计算机工程与科学》2010年第1期136-140,共5页Computer Engineering & Science
摘 要:为适应中文问答系统中汉语语言的特点,本文对信息检索模块进行了深入分析,相对于传统的主流信息检索模型,找到了一种更有效的检索方法——基于SLM的语言模型的信息检索技术(SLM-IR)。同时,研究了N-gram模型的参数N选取及其几种主要的数据平滑技术,并通过对各种数据平滑方法的实验对比,讨论了影响这些数据平滑方法性能的有关因素,如训练集规模等,最终给出了在不同情况下的最优选择方案。In order to fit in with the Chinese language characteristics in the QA systems, this paper thoroughly analyzes the information retrieval model. After analyzing and comparing the traditional main IR models, we get a more efficiency IR method, which is SLM-IR (an information retrieval method based on statistical language modeling). In addition, we study the best order number N in N-gram and its main data smoothing techniques, compare them by test results, and discusse the relevant factors which affect the data smoothing method, such as the scale of training. Finally, the best smoothing techniques in different conditions are given.
关 键 词:信息检索 统计语言模型 N—gram SLM-IR 平滑技术
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.20.240.115