基于URL语义分析的Web用户会话识别方法  被引量:1

A method for Web user session identification based on URL semantic analysis

在线阅读下载全文

作  者:朱志国[1,2] 

机构地区:[1]大连理工大学系统工程研究所,辽宁大连116024 [2]东北财经大学管理科学与工程学院,辽宁大连116023

出  处:《大连理工大学学报》2011年第3期440-446,共7页Journal of Dalian University of Technology

基  金:国家自然科学基金资助项目(70671016)

摘  要:由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值鉴别方法SOAs和SOAd对用户会话进行切分识别.最后对提出的方法与现有经典方法进行了比较实验与分析,结果表明会话识别的精确率和召回率有所提高.Because classical session identification methods based on timeout-oriented and referrer-based heuristics are restricted to discover complex patterns in Web usage mining,a new method based on URL semantic analysis to identify user sessions is presented.Every URL in Web log files is given a centain semantic information with the aid of Web directory in this method and then some factors are defined to measure the semantic distance between URLs.According to static and dynamic Web logs,two semantic outliers detection methods — SOA_s and SOA_d,are presented respectively to segment user sessions.Finally,some comparison experiments between classical session identification method and the proposed method are conducted,and the results show that the precision ratio and recall ratio of session identification are increased.

关 键 词:数据挖掘 WEB使用挖掘 数据预处理 用户会话识别 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象