网络日志预处理中优化的会话识别算法  被引量:4

Research on Method for Session Identification in Web Log Mining

在线阅读下载全文

作  者:杨富华[1] 

机构地区:[1]泸州医学院现代教育技术中心,四川省泸州市646000

出  处:《计算机仿真》2011年第4期123-125,171,共4页Computer Simulation

摘  要:研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最重要的一个环节。为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低。为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法。新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真。结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度。Data preprocessing on the network log mining is very crucial and the results will have a direct impact on the quality of network log mining.The traditional network log mining data preprocessing is not suitable for identifying the characteristics of web logs because the threshold is fixed,which leads to low efficiency and low accuracy of data mining.To improve the efficiency of data preprocessing,an improved conversational identification method is put forward,based on web log data preprocessing of identifying.The threshold is adjusted according to the page importance based on the site structure and the page content,then the uninterested pages will be delete.Finally the simulation experiments is carried out.The experimental results show that the proposed method can decide the access time threshold more accurately compared with the traditional network log mining data preprocessing methods,and improve the efficiency of data preprocessing and the precision of mining results.

关 键 词:网络日志挖掘 会话识别 数据预处理 数据挖掘 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象