检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]电子科技大学计算机学院,四川成都610054
出 处:《成都信息工程学院学报》2006年第2期261-264,共4页Journal of Chengdu University of Information Technology
摘 要:提出并实现了一种中文姓名信息提取方法,该方法首先根据姓氏和名的用字概率信息,将姓氏作为抽取的触发条件,在文本中初步提取姓名。然后再充分利用中文姓名的上下文信息及姓名用字之间的关联程度的信息,选取特征作为决策树测试的属性列表,并将初步提取出来的姓名是否是真实姓名(bool型的值:yes或no)作为决策树要预测的目标属性,组建基于ID3算法的决策树进一步提取出正确的姓名,实验结果表明,该方法具有很好的召回率和准确率。A way to extract the Chinese person names is presented and realized. It extracts the Chinese name preliminarily according to the statistical information and the Chinese surnames. A decision tree based on the II33 algorithm is built to distinguish whether it is a real name. In the decision tree the attributes are chosen by use of the context information of the name and the relationship of the Chinese names. The target-attribute of the decision tree is yes or no (Bool type). The result of the experiment shows that the recall rate and accuracy rate are guaranteed.
关 键 词:自然语言处理 中文姓名信息提取 决策树 ID3算法
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3