检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:蒙华[1] 苏静 李立峰[1] 翟玉兰[1] MENG Hua;SU Jing;LI Lifeng;ZHAI Yulan(Computer Information Center,The First Aaffiliated Hospital,School of Information and Management,Guangxi Medical University,Nanning 530021,China;Teaching and Research Section,School of Information and Management,Guangxi Medical University,Nanning 530021,China)
机构地区:[1]广西医科大学第一附属医院计算机管理中心,南宁530021 [2]广西医科大学信息与管理学院教研科,南宁530021
出 处:《重庆理工大学学报(自然科学)》2019年第8期144-148,共5页Journal of Chongqing University of Technology:Natural Science
基 金:广西高校科学研究技术项目(KY2015LX045);广西医科大学青年科学基金资助项目(GXMUYSF201511)
摘 要:数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。Data preprocessing is the basis of data mining.This paper took hospital website access records as an example,studied the concept and data preprocessing.It got a similarity matrix as algorithm input by using database technology and Matlab to eliminate data redundancy and complexity and setting up a metric of web page and user relevance.The user identification and page clustering criterion of the similarity matrix is focused.The result greatly reduces the data redundancy and dimension,improves the accuracy of preprocessing and increases the input information content of data mining algorithm.
关 键 词:医院网站日志挖掘 数据预处理 用户识别 页面聚类 相似度矩阵
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.16.48.173