检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京理工大学计算机科学与工程系,北京100081
出 处:《计算机应用》2005年第1期4-6,共3页journal of Computer Applications
基 金:云南省信息技术项目基金资助项目(2002IT03)
摘 要:提出了一种从宾州中文语料库中自动提取词汇化树邻接文法(LTAG)的算法。该算法的主要思想是从词汇化树库中归纳出三种类型的词汇化树,然后利用了中心词驱动短语结构文法的方法从语料库自动提取结构合理的词汇化树;最后由语言规则对不合法的词汇化树进行过滤。与手工创建词汇化树邻接文法相比,它需要较少的人力,并且避免了人工创建词汇化树可能造成的遗漏或不一致现象。An algorithm of the extracting Lexicalized Tree Adjoining Grammar(LTAG) from Penn Chinese corpus was presented. Idea of the algorithm is to induce three kinds of trees from lexicalized tree bank. Then the method of Head-driven Phrase Structure Grammar(HPSG) was applied to extract lexicalized tree from corpus. In the end, invalid lexicalized trees were filtered out by linguistic rules. It requires fewer human efforts compared with hand-crafted grammar. It is possible to remedy omission of grammatical syntactic structures in hand-crafted grammar.
关 键 词:词汇化树邻接文法 词汇化树 语料库 自然语言处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3