改进的页面与时间阈值的会话识别法  被引量:1

IMPROVED METHOD OF SESSION IDENTIFICATION BASED ON PAGE AND TIME THRESHOLD

在线阅读下载全文

作  者:郑立山[1] 滕少华[1] 

机构地区:[1]广东工业大学计算机学院,广东广州510006

出  处:《计算机应用与软件》2012年第10期197-199,275,共4页Computer Applications and Software

基  金:广东省自然科学基金项目(06021484;9151009001000007)

摘  要:会话识别是Web日志挖掘的基础,提高会话的识别率能为后续模式的挖掘提供准确可靠的数据,已有许多研究集中于此。在常用的计算时间阈值识别方法的基础上,提出一种改进的基于URL页面类型、页面信息量和停留时间的平均阈值识别方法。针对不同的URL页面类型采用不同的阈值计算方法,并设置时间阈值。相对于已有的对所有用户访问页面使用单一的先验阈值和现有动态阈值计算,该方法能够更真实地反映用户会话的情况,且识别的准确率有了较大提高。SeSsion identification is the base of web log mining, improvement on session identification rate can provide accurate and reliable data for the following pattern mining, and many researches have been focused on it. Based on commonly used method of computing time threshold, an improved method of mean threshold identification based on URL page type, page size and visiting time is brought forward. For different URL page types, different threshold calculation methods will be used to set the time threshold. Relative to the existing method using a single priori threshold and current dynamic threshold to compute pages accessed by all users, this method can give more realistic reflection of the session situation and its accuracy has been improved greatly.

关 键 词:WEB日志挖掘 数据预处理 用户会话识别 动态阈值 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象