检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邢玉艳 刘耀[1] 刘茹 XING Yuyan;LIU Yao;LIU Ru(Center of Information Technical Support,Institute of Scientific and Technical Information of China,Beijing 100038,China;Peking University,Beijing 100091,China)
机构地区:[1]中国科学技术信息研究所,北京100038 [2]北京大学,北京100091
出 处:《情报工程》2019年第5期108-118,共11页Technology Intelligence Engineering
基 金:国家重点研发项目“精准医疗伦理、政策法规框架研究”中课题1——“构建安全、可靠的面向生物医学大数据的、跨系统样本和数据共享的保障体系”(2017YFC0910101)
摘 要:精准医疗伦理的信息安全标准体系构建过程中,会使用大量的资源类型,其中最为重要的就是标准资源,标准资源具有“非结构化”、“缺少语义信息”的特点,这对资源中重要文本信息和结构信息的提取造成了困难。本文提出针对信息安全标准数据特点的资源解析方法,基于“非结构化数据-半结构化数据”的转换思想和XML Schema技术,设计并实现了针对非结构化PDF文件的资源自动解析工具,将源数据中的非结构化数据转化为半结构化的XML格式数据,并以“整体式存储”方式存入MongoDB数据库中,实现了在Solr服务器中的检索功能和完成信息安全标准体系构建过程中信息提取、资源解析的工作。通过对比实验证明了基于XML数据的资源解析工具比JSON数据作为数据中间件,对信息安全标准的解析效果更佳。In the process of constructing an information security standard system for precision medical ethics,a large number of resource types are used,the most important of which is standard resources.The organization and structure of resource data as well as the parsing process of semantic information is the foundation of text mining.This paper puts forward the“unstructured data to semi-structured data”transformation scheme,through the data exchange technology based on XML Schema,transforming effectively the unstructured source data into semi-structured XML data,with another essential idea of“integral storage”in MongoDB,successfully reached the final purpose of data retrieval in a Solr server,and completed the work of information extraction,resource analysis in the process of building an information security standard system.Through comparative experiments,it is proved that the resource parsing tool based on XML data is better than the JSON data as the data middleware.The parsing effect on the information security standard is more better.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117