检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王思丽 祝忠明[1,2,3] 刘巍 杨恒[1,2] Wang Sili
机构地区:[1]中国科学院西北生态环境资源研究院文献情报中心,甘肃兰州730000 [2]中国科学院兰州文献情报中心,甘肃兰州730000 [3]中国科学院大学,北京100049
出 处:《情报理论与实践》2020年第3期145-152,144,共9页Information Studies:Theory & Application
基 金:中国科学院兰州文献情报中心2018年主任基金项目“基于深度学习的领域本体自动构建方法研究”(项目编号:Y8AJ012005);中国科学院2019年西部之光项目“开放学术资源的情景化组织与服务研究”(项目编号:Y9AX011001)的成果。
摘 要:[目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。[方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。[结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。[局限]模型精度尚未达到峰值,有待进一步优化提升。[Purpose/significance] Realize the automatic learning extraction of domain concepts and solve the primary basic tasks of domain ontology automation construction.[Method/process] The unsupervised learning method and the end-to-end recognition mode are the theoretical and technical foundations.Firstly,through the comparative analysis of the mainstream word embedding model,the paper designs an automatic generation method of domain text feature word embedding model based on Word2 Vec and Skip-Gram.Secondly,the paper constructs a domain concept automatic extraction model named BLSTM-CRF based on self-attention mechanism,using annotated text in IOB format as input.Finally,the paper takes the field of resources and environment as an example to carry out experimental research and evaluation analysis.[Result/conclusion] The model can realize the automatic extraction of the domain concepts,and it also has certain robustness to the automatic identification of new domain concepts or terms.[Limitations] The accuracy of the model has not yet reached the top value and needs to be further optimized.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:52.14.145.78