检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院研究生院,北京100039 [2]中国科学院声学研究所,北京100080
出 处:《计算机工程与应用》2007年第35期1-4,共4页Computer Engineering and Applications
基 金:国家重点基础研究发展规划(973)( the National Grand Fundamental Research 973 Program of China under Grant No.2004CB318104); 中科院声学所知识创新工程项目
摘 要:中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。Identification of Chinese names is one of the important fields for the Chinese language automatic processing.The recall rate of identification will affect other processing deeply.But most methods can't get a good recall rate which is up to 90%.This paper presents a method based on maximum entropy model and rules.The open test on real corpus shows that the recall rate of the system reaches 94%,with a precision more than 84%.The method is practicable,and benefits from its recall rate.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33