词汇化句法分析与子语类框架获取的互动方法  被引量:3

An Interactive Method for Lexicalized Parsing and Subcategorization Frame Acquisition

在线阅读下载全文

作  者:冀铁亮[1] 穗志方[1] 

机构地区:[1]北京大学计算语言研究所,北京100871

出  处:《中文信息学报》2007年第1期120-126,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60503071;60372016);北京市自然科学基金资助项目(4052019)

摘  要:概率句法分析器(PCFG Parser)是基于概率规则集的上下文无关文法的句法分析器。规则集主要是针对词类和短语类。然而事实上,词性相同而词汇不同,其所常用的句法规则也通常不同。目前NLP研究的一个趋势和热点就是词汇化的句法分析。针对概率句法分析独立性假设中缺乏词汇化的缺陷,本文将谓语动词的子语类信息与概率句法分析结合起来,提出一种基于动词子语类信息的词汇化概率句法分析方法。论文建立了基于汉语动词子语类框架的统计句法分析模型,并且针对动词子语类框架难以获取的问题,提出一种词汇化概率句法分析与动词子语类框架获取的互动方法。实验利用这种互动的方法获取了汉语中十个常用高频动词的概率化子语类信息,并结合原有的概率句法分析器PCFG实现了一个基于动词子语类信息的概率句法分析器原型系统S-PCFG。实验证明了基于动词子语类信息的概率句法分析对自然语言句法分析的准确率和速度均有所提高。同时分析了新的概率句法分析器的不足之处,为进一步的改进提供条件。PCFG Parser is a context-free parser that is based on probabilistic rules. One of the main problems of PCFG is the lack of lexicalized analysis. This paper aims to solve this problem by bringing forward a lexiealized probabilistic syntactic analysis method based on verbs' subcategorization frame. We first set up a probabilistic model for syntactic analysis based on verbs" subeategorization frame. Furthermore, in order to deal with the bottleneck of the acquisition of subcategorization frame of Chinese verbs, we put forward an interactive method for lexicalized probabilistic parsing and verb's subcategorization frame acquisition. After training the probabilistic subcategoriaztion frames for some commonly used Chinese verbs, we have implemented an S-PCFG parser (subcategorization frame based PCFG parser). By comparing the parsing results of both PCFG parser and S-PCFG parser, we prove that S- PCFG parser is more accurate and efficient than PCFG parser.

关 键 词:计算机应用 中文信息处理 词汇化概率句法分析 子语类框架 词汇知识自动获取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象