检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周强[1]
机构地区:[1]北京大学计算语言学研究所
出 处:《中文信息学报》1997年第1期1-10,共10页Journal of Chinese Information Processing
基 金:国家自然科学基金
摘 要:考虑到传统的基于规则的汉语分析器对大规模真实文本的分析所遇到的困难,本文在使用统计方法进行汉语自动句法分析方面作了一些探索,提出了一套基于统计的汉语短语自动划分和标注算法。它分为预测划分点、括号匹配和分析树生成等三个处理阶段,其间利用了从人工标注的树库中统计得到的各种数据进行自动句法排歧,最终得到一棵最佳句法分析树,从而可以自顶向下地完成对一句句子的短语自动划分和标注,对一千多句句子的封闭测试结果表明,短语划分的正确率约为86%,短语标注的正确率约为92%,处理效果还是比较令人满意的。: this paper. we describe work toward the construction of a probabilistic parsing system for Chinese phrase . The system is intend to bracket and tag the Chinese pbrase automatically in large-scale real text corpus . The algorithm has three processing stages : to pre- dict the bracketing point, to match brackets and to generate the syntactic tree, using the scatis- tics information got from a supervised training treebank . Through syntactically disambiguating, the parser gets the best syntactic tree. Using this tree, we can bracket and tag the phrases of a sentence up-down automatically . The close test results of the system is : bracket accuracy is 86% and the tagging accuracy is 92%.
关 键 词:自动划分 标注 语料库加工 汉语分析器 汉语短语
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222