Web日志挖掘中数据预处理技术的研究  被引量:9

Research on Data Preprocessing Technology in Web Log Mining

在线阅读下载全文

作  者:于飞[1] 丁华福[1] 姜伦[1] 

机构地区:[1]哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080

出  处:《计算机技术与发展》2010年第5期47-50,共4页Computer Technology and Development

基  金:国家自然科学基金项目(60736014)

摘  要:数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。Data preprocessing plays an essential role in the process of Web log mining,directly influenced the quality of the Web log mining and its results.Analyses data preprocessing process for Web log mining in detail,proposes an improved method of data cleaning,to improve the efficiency in data preprocessing of log mining,and proposes an improved method of session identification to Web log data preprocessing.The threshold is adjusted by the page weightness based on site's structure after the user identification.Then,delete the link pages and uninterested pages based on the user's interest degree of page content.Experimentally,the approach proposed can decide the access time threshold more accurately.It is more reasonable and effective.

关 键 词:WEB日志挖掘 数据预处理 会话识别 数据清洗 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象