检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京工业大学,计算机学院,北京,100022,北京语言大学语言信息处理研究所,北京,100083 [2]北京语言大学语言信息处理研究所,北京,100083
出 处:《中文信息学报》2005年第3期67-72,86,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目 (6 0 2 72 0 5 5 ) ;国家 86 3计划资助项目 (2 0 0 1AA114 111) ;教育部科学技术研究重点资助项目 (0 0 12 8)
摘 要:专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。Recognition of proper noun is one of the most important parts in word segmentation system in modern Chinese. This paper firstly analyzes the shortcomings of traditional proper noun recognition method in statistical language models and other corpus-based models. Secondly, we put forward a recognition strategy of person names based on reliability. We also train the model with a bootstrapping method without the limit of manually tagged corpus. Large-scale test on real corpus shows that this method successfully resolves the problem of mis-estimate of candidate proper nouns in traditional methods. In addition, our method is comparable to traditional corpus-based method.
关 键 词:计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229