自然语言处理中的概率语法  被引量:10

Probabilistic grammar in natural language processing

在线阅读下载全文

作  者:冯志伟[1] 

机构地区:[1]教育部语言文字应用研究所,北京朝内南小街51号100010

出  处:《当代语言学》2005年第2期166-178,共13页Contemporary Linguistics

基  金:国家社会科学基金(项目号:03BYY019);教育部科研项目(项目号:ZDI105-53A)的资助。

摘  要:上下文无关语法在处理句法歧义时遇到了困难,概率上下文无关语法和概率词汇化上下文无关语法为解决句法歧义问题提供了有力的手段。概率语法给一个句子或者单词的符号串指派一个概率,从而捕捉比一般的上下文无关语法更加细致的句法信息。概率上下文无关语法也是一种上下文无关语法,其中的每一个规则都标上选择该规则的概率,处理每一个上下文无关规则时,都假定它们在条件上是独立的,一个句子的概率使用剖析该句子时每一个规则的概率的乘积来计算。CYK算法是一种自底向上的动态规划剖析算法,经过概率上下文无关语法增强之后,概率CYK算法就可以计算在剖析一个句子时的剖析概率。概率上下文无关语法的概率可以通过统计已经剖析好的语料库(树库)中的规则而得到,也可以通过直接剖析尚未加工过的语料库而得到。当剖析的句子有歧义的时候,可以使用向内向外算法来处理。概率词汇化上下文无关语法要考虑每一个规则的词汇中心语,规则的概率要以词汇中心语和邻近的中心语作为它的条件,这样就进一步增强了规则的功能。Probabilistic grammar assigns a probability to a sentence or a string of words, while attempting to capture more sophisticated syntactic information than the context-free grammar (CFG). A probabilistic context-free grammar (PCFG) is a context-free grammar in which every rule is annotated with the probability of choosing that rule. Each PCFG rule is treated as if it were conditionally independent; thus the probability of a sentence is computed by multiplying the probabilities of each rule in the parse of the sentence. The CYK algorithm is a bottom-up dynamic programming parsing algorithm. It can be augmented to compute the probability of a parse while parsing a sentence. PCFG probabilities can be learned by counting in a parsed corpus (tree-bank), or by parsing a corpus. The inside-outside algorithm is a way of dealing with the fact that the sentence being parsed is ambiguous. Probabilistic lexicalized context-free grammar augments PCFG with a lexical head for each rule. The probability of a rule can be conditioned on the lexical head or nearby head.

关 键 词:自然语言处理 概率 语法 上下文 中心语 句法歧义 歧义问题 动态规划 自底向上 词汇化 语料库 规则 剖析 句子 算法 使用 符号 

分 类 号:H04[语言文字—语言学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象