检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王思丽 祝忠明 刘巍 杨恒 Wang Sili;Zhu Zhongming;Liu Wei;Yang Heng
机构地区:[1]中国科学院西北生态环境资源研究院文献情报中心 [2]中国科学院大学
出 处:《图书馆学研究》2019年第20期54-64,共11页Research on Library Science
基 金:中国科学院兰州文献情报中心2018年主任基金项目“基于深度学习的领域本体自动构建方法研究”(项目编号:Y8AJ012005);中国科学院2019年西部之光项目“开放学术资源的情景化组织与服务研究”(项目编号:Y9AX011001)的研究成果之一
摘 要:实现领域语料的自动获取与预处理,为机器/深度学习驱动的领域本体自动构建提供数据及数据处理技术基础。首先,对所涉及语料的类型、获取方法及应用研究现状进行分析,提出多源异构领域语料的自动获取方法,包括基于Web Spider的网络开放领域语料和基于Web API的科学文献领域语料的自动获取等。其次,分析提出领域基础知识词典的自动构建方法,为语料预处理奠定基础。最后,通过对主流分词方法及开源分词工具进行测试与评估,提出基于增量训练HanLP-SP领域分词模型的多策略混合的自动分词与新词发现方法,并进行实验研究。方法能够有效获取到领域语料,并实现分词等预处理任务。Realizing the automatic acquisition and preprocessing of domain corpus can provide data and data processing technology basis for machine learning or depth learning driven domain ontology automatic construction.Firstly,the types of corpora,acquisition methods and application research status are analyzed.The automatic acquisition methods of multi-source heterogeneous domain corpus are proposed,including Web Spider-based network open domain corpus automatic acquisition and Web API-based scientific literature domain corpus automatic acquisition,etc.Secondly,an automatic construction method of domain basic knowledge dictionary is proposed,which lays a foundation for preprocessing corpus.Finally,through the test and evaluation of the mainstream word segmentation method and the open source word segmentation tool,a multi-strategy hybrid automatic word segmentation and new word discovery method based on the incremental training HanLP-SP domain segmentation model is proposed and experimental research is carried out.The method can effectively acquire the domain corpus and realize the preprocessing tasks such as word segmentation.
分 类 号:TP3[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.62