哈萨克语“v+n+n”格式的歧义消解  

“v+n+n” Format Disambiguation in Kazakh

在线阅读下载全文

作  者:户冰心 古丽拉.阿东别克 祁卉 

机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]国家语言资源监测与研究中心少数民族语言分中心哈萨克和柯尔克孜语文基地,乌鲁木齐830046 [3]新疆多语种信息技术实验室,乌鲁木齐830046 [4]新疆大学人文学院,乌鲁木齐830046

出  处:《计算机工程》2014年第12期141-145,共5页Computer Engineering

基  金:国家自然科学基金资助项目(61063025)

摘  要:通过研究大量包含歧义的短语实例,分析计算机处理过程中遇到的短语结构边界判定的歧义问题。针对"v+n+n"这种常见的歧义格式,采用条件随机场模型进行消歧。结合哈萨克语的语言特点,提出基于哈萨克语词尾的类别及位置信息来构建特征模板的方法。以新疆日报(哈语版)2008年30天的数据统计为实验语料,加入消歧策略后名词短语和动词短语的识别准确率分别达到87.23%和97.46%;召回率分别达到80.12%和95.80%。实验结果表明,将提取出的特征引入到条件随机场模型后,系统的准确率、召回率和F值均有所提高。By studying a number of examples including ambiguity phrases,this paper analyzes the ambiguity problem of phrase structure boundary determination in the process of computer processing. Especially for the most common ambiguity format of “v+n +n”, it uses conditional random field model for disambiguation. Combined with the characteristics of Kazakh language,it puts forward a method that constructs the feature template based on category and location information of Kazakh suffix. Taking the Xinjiang Daily ( Kazakh Language Version ) for 30 days in 2008 statistical data as the experimental corpus,the recognition precision rate of noun phrase and verb phrase with the disambiguation strategy reaches 87. 23% and 97. 46%,and the recall rate reaches 80. 12%,95. 80%. Experimental results show that after introducing the feathers presented into conditional random field,accuracy rate,recall rate and F value of the system are improved.

关 键 词:哈萨克语 自然语言处理 歧义 附加成分 条件随机场模型 模板 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象