检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨工业大学教育部-微软语言语音重点实验室,哈尔滨150001 [2]中讯邮电咨询设计院有限公司信息工程处,郑州450007 [3]大庆石油学院计算机与信息技术学院,大庆163318
出 处:《高技术通讯》2009年第5期480-486,共7页Chinese High Technology Letters
基 金:863计划(2006AA01Z150);国家自然科学基金(60736044)资助项目
摘 要:针对蛋白质交互作用关系(PPI)抽取研究中已标注语料有限而未标注生物医学自由文本易得的问题,进行了基于直推式支持向量机(TSVM)与主动学习融合的蛋白质交互作用关系抽取研究。通过自主选择最优的未标注样本加入到TSVM的训练过程中,最大程度地提高了系统的性能。实验结果表明,TSVM与主动学习融合的算法在少量已标注样本和大量未标注样本组成的混合样本集上取得了较好的学习效果,与传统的支持向量机(SVM)和TSVM算法相比,能有效地减少学习样本数,提高分类精度,在AImed语料上取得了F测度为64.12%的较好性能。This paper presents an algorithm for extraction of protein-protein interaction (PPI) based on the combination of the transductive support vector machine (TSVM) approach with the active learning algorithm to solve the problems which are the lack of labeled corpora and the easy usage of the vast amount of unlabeled biomedical free texts. The algorithm can maximally increase the performance of the TSVM algorithm through actively selecting useful unlabeled samples and adding them to the TSVM training set. The experiment results show that combing TSVM with the active learning is very promising on a mixed training set with a small number of labeled samples and a large number of unlabeled samples. Compared with the traditional support vector machine (SVM) algorithm and the TSVM algorithm, the paper proposed algorithm can im- mensely reduce the number of the training data and efficiently improve the performance of the classifier for PPI extraction. A very encouraging result of 64.12% F-score on the Aimed corpus was achieved.
关 键 词:蛋白质交互作用关系抽取 半监督学习 直推式支持向量机(TSVM) 主动学习
分 类 号:Q51-3[生物学—生物化学] G642.4[文化科学—高等教育学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.116.239.69