检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]东北大学信息科学与工程学院,沈阳110819 [2]金策工业综合大学应用程序学院
出 处:《计算机科学》2011年第5期169-174,共6页Computer Science
基 金:国家自然科学基金(70671020;70931001;60802023);国家科技支撑计划(2008BAH37B03;2008BAH37B07);高等学校博士学科点专项科研基金(20070145017);中央高校基本科研业务费专项资金(N090504003;N090504006)资助
摘 要:基于朝鲜语信息检索系统的深入分析,研究提高朝鲜语信息检索性能的索引问题。通过剖析名词单位索引法、单位词素索引法、n-gram单位索引法、单位语句索引法等经典索引法的优缺点,以试验分析找出对索引性能有重要影响的关键要素,深入阐述朝鲜语的30个非用词、索引方式与朝鲜语的特征,从而提出一种新的将每种索引方法特征融于一体的朝鲜语信息检索索引方法。仿真实验表明,所提出的新方法具有更好的性能。Based on the sufficient analysis of the Korean information search system,this paper investigated the indexing method to improve the search performance.After the advantage and shortcoming of the typical indexing methods such as the noun unit indexing,the morphological analysis indexing,the n-gram unit indexing,the word segmentation unit indexing and so on,were analyzed in detail,the key factor impacting significantly on the search performance was found by trial and error.At the same time,thirty stop words in Korean,indexing way used to search,and its characteristics were illustrated.Finally,a new indexing method for Korean information search was proposed by taking advantage of every indexing method.Simulation results show that new method proposed holds the significant performance improvement and is promising.
关 键 词:朝鲜语 词素分析 索引法 n-gram方法 非用词
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49