检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]国家语言资源监测与研究中心少数民族语言分中心哈萨克和柯尔克孜语文基地,乌鲁木齐830046 [3]新疆多语种信息技术实验室,乌鲁木齐830046 [4]新疆大学人文学院,乌鲁木齐830046
出 处:《计算机工程》2014年第12期141-145,共5页Computer Engineering
基 金:国家自然科学基金资助项目(61063025)
摘 要:通过研究大量包含歧义的短语实例,分析计算机处理过程中遇到的短语结构边界判定的歧义问题。针对"v+n+n"这种常见的歧义格式,采用条件随机场模型进行消歧。结合哈萨克语的语言特点,提出基于哈萨克语词尾的类别及位置信息来构建特征模板的方法。以新疆日报(哈语版)2008年30天的数据统计为实验语料,加入消歧策略后名词短语和动词短语的识别准确率分别达到87.23%和97.46%;召回率分别达到80.12%和95.80%。实验结果表明,将提取出的特征引入到条件随机场模型后,系统的准确率、召回率和F值均有所提高。By studying a number of examples including ambiguity phrases,this paper analyzes the ambiguity problem of phrase structure boundary determination in the process of computer processing. Especially for the most common ambiguity format of “v+n +n”, it uses conditional random field model for disambiguation. Combined with the characteristics of Kazakh language,it puts forward a method that constructs the feature template based on category and location information of Kazakh suffix. Taking the Xinjiang Daily ( Kazakh Language Version ) for 30 days in 2008 statistical data as the experimental corpus,the recognition precision rate of noun phrase and verb phrase with the disambiguation strategy reaches 87. 23% and 97. 46%,and the recall rate reaches 80. 12%,95. 80%. Experimental results show that after introducing the feathers presented into conditional random field,accuracy rate,recall rate and F value of the system are improved.
关 键 词:哈萨克语 自然语言处理 歧义 附加成分 条件随机场模型 模板
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.143.209.210