检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:董家源 杨小渝[1,2] Dong Jiayuan;Yang Xiaoyu(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)
机构地区:[1]中国科学院计算机网络信息中心,北京100190 [2]中国科学院大学,北京100049
出 处:《数据与计算发展前沿》2020年第4期105-120,共16页Frontiers of Data & Computing
摘 要:【目的】针对材料科学工作者开展机器学习工作门槛较高这一现状,本文基于MatCloud研发一个用户友好、自动化的材料数据挖掘与机器学习模块Auto-Mat。【方法】本文对MatMiner和scikit-learn中一些已有的获取数据的方法和机器学习算法进行了集成,并定义了数据字典以读取不同材料计算数据库的数据。同时,自主研发了一些特征筛选和处理方面的算法。【结果】能够提供一个具有可视化交互和展示界面的材料数据挖掘与机器学习模块,并将数据以统一的格式呈现。同时,自主研发的算法,对模型的性能均有一定提升。【局限】对于数据的获取,目前仅仅能获取到通过MatMiner API中的数据,相关代码的编写也完全和MatMiner API保持同步,因此可扩展性较差。而且,目前一些核心算法的执行速度有待提升。【结论】通过该模块与MatCloud的集成,用户可以“一站式”地读取Materials Project等几个主流数据库中的数据,并快速构建属于自己的材料数据挖掘与机器学习工作流程。并在最后通过2个案例的对比分析,说明了该模块对于降低用户开展材料数据挖掘与机器学习的使用门槛有着积极作用。[Objective]Aiming at handling the current situation that there are high barriers impeding materials science researchers to take advantages of machine learning algorithms,this article focuses on developing a user-friendly and highly automated machine learning system for material data mining named Auto-Mat.[Methods]We have integrated some existing methods and machine learning algorithms in MatMiner and scikit-learn,and defined a data dictionary to read data from different material calculation databases.At the same time,we have developed some algorithms for feature selection and processing.[Results]It can provide the system with a visual interaction and display interface for data mining and machine learning modules under a unified data format.With the optimized algorithms,the performances of models are improved.[Limitations]For data acquisition,currently only the data in the MatMiner API can be obtained,and the writing of related code is also fully synchronized with the MatMiner API.So the scalability is poor.Moreover,at present,the execution speed of some core algorithms needs to be improved.[Conclusions]Through this system,users can read data from several mainstream databases such as Materials Project in one shot and quickly build their own material data mining workflow.In the end,a comparative analysis of two cases shows that our platform has a positive effect on reducing the barriers for users to use machine learning methods on material data mining.
关 键 词:材料科学 数据挖掘 可视化交互界面 数据汇总 特征提取 模拟退火算法 MatCloud
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论] TP181[自动化与计算机技术—计算机科学与技术] TB30[一般工业技术—材料科学与工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.218.189.170