用数据采掘方法获取汉语词性标注规则  被引量:10

A DATA MINING METHOD TO ACQUIRE PART OF SPEECH RULES IN CHINESE TEXT

在线阅读下载全文

作  者:李晓黎[1] 史忠植[1] 

机构地区:[1]中国科学院计算技术研究所,北京100080

出  处:《计算机研究与发展》2000年第12期1409-1414,共6页Journal of Computer Research and Development

基  金:国家自然科学基金资助!(项目编号 6 980 30 10 )

摘  要:从数据采掘的角度对汉语文本词性标注规则的获取进行研究 .在满足用户规定的支持度向量的前提下 ,先从候选集模式中挑选出常用模式 ;然后采掘出具有高可信度的产生式规则 .该过程完全是自动的 ,而获取的规则在表达上是明确的 ,同时又是隐含在数据中的、用户不易发现的 .实验表明 :在原有统计方法的基础上 ,利用自动获得的标注规则作为补充 ,可以提高词性标注的正确率 .A data mining method to acquire part of speech rules in Chinese text is presented. Given an array of support degree, it selects frequent pattern from candidate pattern set. Then it extracts a set of production rules that have high confidence degree. The process is automatic. The rules acquired are clear, but implicit in data set and previously unknown by users. The experiment shows a system that incorporates statistic method with rule method has better performance.

关 键 词:数据采掘 中文信息处理 汉语词性标注规则 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象