Web日志挖掘中的会话识别算法被引量：11

Improved method for session identification in web log mining

出　　处：《计算机工程与设计》2009年第6期1321-1323,1390,共4页Computer Engineering and Design

基　　金：浙江省教育厅科研计划基金项目(20060599);浙江理工大学科学基金项目(111251A4Y04002)

摘　　要：会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。Although session identification is an important step in web log mining, the session identified by existing methods are not accurate. Toward session identification in web log mining, an access timeout-based improvement is carried out of session identification in web log mining. By calculating the average intervals dynamically among request records in the session, adjusting a threshold individually. Compared to the traditional method that defines a uniform threshold for all web pages experimentally, the approach presents can identify the long session more accurately. Then generating sets of candidate session is re-identified, which make the session more reasonable and effective. The quality of session identification is proved more efficiency by experiments.

关键词：WEB挖掘数据预处理会话识别时间阈值

分类号：TP311[自动化与计算机技术—计算机软件与理论] TP393[自动化与计算机技术—计算机科学与技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

Web日志挖掘中的会话识别算法被引量：11

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

Web日志挖掘中的会话识别算法 被引量：11

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

Web日志挖掘中的会话识别算法被引量：11