语言学与统计方法结合建立汉语动词SCF类型集  被引量:2

The Acquisition of Chinese Verb's Subcategorization Frame Types Based on Linguistic Theory and Statistical Algorithm

在线阅读下载全文

作  者:冀铁亮[1] 孙薇薇[1] 穗志方[1] 

机构地区:[1]北京大学计算语言学研究所,北京100871

出  处:《中文信息学报》2007年第5期118-125,共8页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60503071)

摘  要:动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的子语类框架类型集。而汉语方面还没有标准的动词子类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。实验证明,加入语言学理论的子语类框架类型集降低了对语料的依赖程度,比完全由分析语料产生的类型集更完备。Subcategorization of verbs is an essential issue and plays an important role in syntactic parsing, semantic roles labeling and etc. A sufficient subcategorization frame type set is critical for subcategorization acquisition. By now, a set of subcategorization frame types has come to an agreement in English, while no standard subcategorization frame type set for Chinese verbs has been achieved. In this paper we apply a semi-supervise method for subcategorization frame type acquisition with linguistic theory and statistical algorithm. Firstly we create a set of seeds of subcategorization patterns according to linguistics theory. And then a semi-supervise machine learning method is applied to analyze the corpus for extending the seeds. Contrasted with a corpus based subcategorization frame type acquisition mehtod, our method gains better precision and coverage.

关 键 词:计算机应用 中文信息处理 动词子语类框架 类型集 语言学与统计方法结合 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象