检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京外国语大学中国外语教育研究中心,北京100089 [2]北京语言大学语言信息处理研究所,北京100083
出 处:《计算机工程》2007年第6期195-197,共3页Computer Engineering
基 金:国家自然科学基金资助项目(60272055);国家"863"计划基金资助项目(2001AA114111);教育部科学技术研究资助重点项目(00128);教育部人文社会科学重点研究基地资助重大项目(02JAZJD740007)
摘 要:针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。Information need expression and information content words are distinguished for users requests in natural language. Based on the analysis of 200 000 query sentences and the People's Daily corpus, absolute stop word and relative stop word are proposed. The candidate stop word lists are built offline by means of left/right entropy, Ngram and KL divergence. With the information of Bigram and different position distributions, this paper gives a dynamic identification algorithm for the actual stop word in users' request expression. The experiment shows the method is superior to the baseline which only consults a stop word list.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.200