一种支持混合语言的并行查询纠错方法  被引量:1

Aparallel Query Correction Method for Mixed Language

在线阅读下载全文

作  者:颛悦 熊锦华[1] 马宏远[3] 程舒杨 程学旗[1] 

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院大学,北京100190 [3]国家计算机网络应急技术处理协调中心,北京100029

出  处:《中文信息学报》2016年第2期99-106,共8页Journal of Chinese Information Processing

基  金:国家重点基础研究发展规划(973计划)项目(2014CB340406;2012CB316303;2013CB329602);国家自然科学基金(61173064;61300206);国家科技支撑计划项目(2015BAK20B03);国家科技支撑计划课题(2011BAH11B02);国家242专项(2013G129);国家科技支撑专项(2012BAH46B04)

摘  要:中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长查询的问题。为了解决上述两个问题,该文提出了一种支持混合语言的并行纠错方法。该方法通过对混合语言统一编码,建立统一编码语言模型和异构字符词典树,并根据语言特点制定相应的编辑规则对查询词语进行统一处理,其中,针对中文长查询,提出双向并行的纠错模型。为了并行处理查询语句,我们在字符词典树和语言模型的基础上提出了逆向字符词典树和逆向语言模型的概念。模型中使用的训练语料库是从用户查询日志、网页点击日志、网页链接信息等文件中提取的高质量文本。实验表明,与单向查询纠错相比,支持混合语言的并行纠错方法在准确率上提升了9%,召回率降低了3%,在速度上提升了40%左右。Query in Chinese information retrieval system often contains Chinese,Chinese phonetic alphabet and English etc.Existing method can not solve the issue of mixed language and long Chinese query.In order to solve these problems,we propose a parallel query correction method for mixed language.The method establishes language model with mixed language and built the heterogeneous character dictionary tree according to the corresponding edit rules to process the query words.For the long Chinese query,we put forward spell correction model of two-way parallel.For paralle processing,we put forward the concept of reverse character dictionary tree and reverse language model.The training corpus used in the model is extracted from the user query log,click log,web links and other information.Experiment shows that the parallel query correction method for mixed language increases the accuracy by 9%,reduces the recall by 3%,and,especially,speeds up the processing by 40% compared to single pass query correction.

关 键 词:查询纠错 词典树 语言模型 并行纠错 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象