检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机工程》2017年第4期217-221,227,共6页Computer Engineering
基 金:国家自然科学基金重点项目"篇章级中文语义分析理论与方法"(61133012);国家自然科学基金面上项目"汉语语篇连贯的事件链模型研究"(61373108)
摘 要:针对现有并列名词短语识别不能处理短语序列隐含信息的情况,提出一种新的并列名词短语识别方法。采用隐结构感知模型与条件随机场模型,识别并列名词短语序列以及序列中用于连接并列名词短语的连词和标点。针对并列名词短语序列进行任务描述,建立语料库并选择典型的并列名词短语识别特征进行实验。结果表明,隐结构感知模型由于加入序列中的隐含信息,相比传统条件随机场模型在并列名词短语识别中更有优势,F度量值达到86.36%,进而证明该模型能够用于以信息抽取为导向的并列名词短语识别。Aiming at the situation that the existing coordinate noun phrase identification cannot deal with the implicit information of the phrase sequence, this paper proposes a new coordinate noun phrase indentificaiton method. Conditional Random Fields (CRF) model and Latent Structured Perceptron (LSP) model are used to identify the sequence of coordinate noun phrases as well as conjunctions and punctuation used to connect coordinate noun phrases in a sequence. In this paper, the task description is firstly carried out for the sequence of coordinate noun phrases. Then the corpus is constructed, and the typical recognition features of the coordinate noun phrase are selected for the experiment. Experimental results show that,compared with traditional CRF model,LSP model with latent information gives superior performance,gains the F score up to 86.36% ,and proves that the model can be used for information extraction oriented coordinate noun phrase identification.
关 键 词:并列名词短语 隐结构感知 条件随机场 序列识别 边界识别
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30