基于词汇化模型的汉语句法分析  被引量:2

Parsing Chinese Based on Lexicalized Model

在线阅读下载全文

作  者:曹海龙[1] 赵铁军[1] 李生[1] 

机构地区:[1]哈尔滨工业大学语言语音教育部-微软重点实验室,哈尔滨150001

出  处:《电子与信息学报》2007年第9期2082-2085,共4页Journal of Electronics & Information Technology

基  金:国家自然科学基金(60373101);国家863计划(2004AA117010-08)资助课题

摘  要:该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型,该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确率和召回率分别为77.57%和74.96%,这一结果要明显好于目前唯一可比的工作。In order to process large-scale real text, a method of building Chinese parser based on lexicalized model is proposed. First, a unified approach for segmentation and part of speech tagging is proposed based on hidden Markov model. The method not only conservers the merits of HMM which is simple and efficient but also improves the tagging accuracy. Then the head-driven model is used to recognize phrases. Head-driven model is a well-known English parsing model; we combine it with segmentation and POS tagging model and thus build a Chinese parser that can operate at the character level. The parser is evaluated on the standard test set. It achieves 77.57% precision and 74.96% recall and outperforms the only previous comparable work significantly.

关 键 词:句法分析 隐马尔科夫模型 中心驱动模型 结构模式识别 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] H146.3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象