检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:乔羽 姚舒威 QIAO Yu;YAO Shuwei(School of Computer Science and Technology,Fudan University,Shanghai 20043)
机构地区:[1]复旦大学计算机科学技术学院,上海200433
出 处:《微型电脑应用》2018年第7期1-5,共5页Microcomputer Applications
基 金:国家自然科学基金(61572139)
摘 要:因为使用生化实验确定蛋白功能需要耗费大量的时间和资源,所以利用计算技术自动标注蛋白功能意义重大。基于文本进行蛋白质功能预测的方法可以充分利用蛋白序列以外的数据。为了探究文本分类中不同的文本表示对蛋白质功能预测任务的影响,通过实验分析了一系列主流的文本表示方法,包括传统的基于词袋模型的稀疏表示(TFIDF)和含有深度语义信息的稠密表示(W2V,GloVe,D2V),并做了两方面拓展:(1)对基于词向量的文本表示考虑使用IDF加权平均(WW2V,WGloVe);(2)稀疏表示与稠密表示的拼接结合(WW2V-TFIDF,WGloVe-TFIDF,D2V-TFIDF,Combined)。实验结果证明,IDF加权平均比直接平均效果更好;每个单独的表示侧重点不同,各有优缺点;稀疏表示与稠密表示具有互补性;多种表示的组合(结合了TFIDF,WW2V,WGloVe,D2V)效果最好。Since it takes a lot of time and resources to determine the functions of a protein through biochemical experiments,it is of great significance to automatically annotate the protein functions using computational technology.Text-based methods for protein function prediction can take full advantages of data other than protein sequence.In order to explore the effects of different text representations in text categorization on the task of protein function prediction,the article analyzes the mainstream text representation methods by a series of experiments,including the traditional sparse representation of BOW(TFIDF)and the dense representations with deep semantic information(W2 V,GloVe,D2 V).In addition,we make two expansions:(1) Considering the IDF weighted average to word-embedding representations(WW2 V,WGloVe);(2)integrating the sparse representations and dense representations(D2 V-TFIDF,WW2 V-TFIDF,WGloVe-TFIDF,Combined).The results show that the IDF weighted average is better than the pure average;each individual representation focuses on different points and each of them has its own advantages and disadvantages;the sparse representation and the dense representation are complementary;the combination of multiple representations(combined with TFIDF,WW2 V,WGloVe,D2 V)presents the best performance.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.42.128