不限领域的中文新词的识别研究  被引量:2

Study on Chinese OOV Identification Without Domain Restriction

在线阅读下载全文

作  者:韩艳[1] 姚建民[1] 朱巧明[1] 张晶[2] 

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006 [2]华南理工大学计算机学院,广州510000

出  处:《郑州大学学报(理学版)》2008年第3期67-71,共5页Journal of Zhengzhou University:Natural Science Edition

基  金:江苏省自然科学基金资助项目,编号BK2006539;江苏省高校自然科学基础研究项目,编号06KJB520095

摘  要:新词识别是中文信息处理领域中的一个难点,也是自然语言处理、信息检索和机器翻译等领域的一项基础研究.根据新词特点提出不限领域的基于概率统计技术和规则方法相结合的概念抽取方法,比较了规则和统计结合的方法与纯统计的新词识别方法,通过增加权重设置很好地结合了两种方案.Identification of Chinese OOV (unknown words) is a problem of Chinese information processing. And it is also a basic research in NLP, IR and MT. The method based on statistic techniques and rules is put forward for new words discovery. Also, the method based on statistic techniques and rules is compared with the method based on statistic techniques only. Weight setting helps to combine the two schemes smoothly.

关 键 词:新词检测 平均互信息 频度比 权重设置 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象