检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨商业大学
出 处:《哈尔滨师范大学自然科学学报》2010年第1期40-43,共4页Natural Science Journal of Harbin Normal University
基 金:2007人事部留学人员科技活动项目择优资助;黑龙江省自然科学基金项目(F2007-12)
摘 要:随着互联网的普及和网上电子文本信息的爆炸式的增加,自然语言处理技术面向动态的、变化的文本显得越来越必要.针对无切分语言的分词处理的主要难点是切分歧义和未知词的处理.基于归纳学习的分词方法,仅利用文本的表层信息,因此具有完全不依赖于某特定语言的优点.通过引入包含上下文信息的消歧处理规则,对基于归纳学习的分词方法进行改进.以归纳学习方法对未知词进行推测,抽出的规则用于歧义切分的消歧处理,提高了对切分歧义的处理精度.通过实验对规则的有效性进行了考察,并给出了改进方法的分词效果.With the development of the Internet and increasing of on-line electronic text,it is necessary that natural language processing technology could deal with those dynamic,open texts.The difficult problem of word segmentation is processing of segmentation ambiguity and identifying of unknown words.The method based on Inductive Learning use only surface information of a text,so that it has an advantage that is entirely not dependent on any specific language.The Inductive Learning method is improved by using segmentation rules that contain information of context.The method predicts unknown words with Inductive Learning and process segment ambiguity by rules,segmentation rate is improved,usefulness of rules is evaluated and results of word segmentation are demonstrated.
分 类 号:TP277[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.136.159.203