检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨富华[1]
机构地区:[1]泸州医学院现代教育技术中心,四川省泸州市646000
出 处:《计算机仿真》2011年第4期123-125,171,共4页Computer Simulation
摘 要:研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最重要的一个环节。为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低。为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法。新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真。结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度。Data preprocessing on the network log mining is very crucial and the results will have a direct impact on the quality of network log mining.The traditional network log mining data preprocessing is not suitable for identifying the characteristics of web logs because the threshold is fixed,which leads to low efficiency and low accuracy of data mining.To improve the efficiency of data preprocessing,an improved conversational identification method is put forward,based on web log data preprocessing of identifying.The threshold is adjusted according to the page importance based on the site structure and the page content,then the uninterested pages will be delete.Finally the simulation experiments is carried out.The experimental results show that the proposed method can decide the access time threshold more accurately compared with the traditional network log mining data preprocessing methods,and improve the efficiency of data preprocessing and the precision of mining results.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30