决策树在中文姓名信息提取中的应用研究  

Application of decision tree to Chinese name information extraction

在线阅读下载全文

作  者:史永刚[1] 左志宏[1] 

机构地区:[1]电子科技大学计算机学院,四川成都610054

出  处:《成都信息工程学院学报》2006年第2期261-264,共4页Journal of Chengdu University of Information Technology

摘  要:提出并实现了一种中文姓名信息提取方法,该方法首先根据姓氏和名的用字概率信息,将姓氏作为抽取的触发条件,在文本中初步提取姓名。然后再充分利用中文姓名的上下文信息及姓名用字之间的关联程度的信息,选取特征作为决策树测试的属性列表,并将初步提取出来的姓名是否是真实姓名(bool型的值:yes或no)作为决策树要预测的目标属性,组建基于ID3算法的决策树进一步提取出正确的姓名,实验结果表明,该方法具有很好的召回率和准确率。A way to extract the Chinese person names is presented and realized. It extracts the Chinese name preliminarily according to the statistical information and the Chinese surnames. A decision tree based on the II33 algorithm is built to distinguish whether it is a real name. In the decision tree the attributes are chosen by use of the context information of the name and the relationship of the Chinese names. The target-attribute of the decision tree is yes or no (Bool type). The result of the experiment shows that the recall rate and accuracy rate are guaranteed.

关 键 词:自然语言处理 中文姓名信息提取 决策树 ID3算法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象