一种对移动Web访问日志中层次数据的提取方法  

An Extraction Method of Hierarchical Data in Mobile Web Access Log

在线阅读下载全文

作  者:高丽峰[1] 高丽萍 李梦颖[1] 

机构地区:[1]四川大学计算机学院,成都610065 [2]北京南瑞智芯微电子科技有限公司,昌平102200

出  处:《现代计算机》2015年第8期47-53,共7页Modern Computer

基  金:四川省科技厅项目(No.2013GZ0015)

摘  要:提出一种基于可视分析的层次数据提取方法,实现对移动Web访问日志中层次数据的精确高效提取。通过数据样本建立数据字典,确保没有信息遗漏,并根据字典统计样本并记录相关数据,建立数据网络权重图。可视化该网络,并以可视分析的方法确定数据间的层次结构,并以此构建数据层次结构有向图,结合结点权重进行拓扑排序,使用得到的拓扑序列更新数据字典。将待提取日志与数据字典中的关键词依次进行正则匹配,并保存提取结果。对移动Web访问日志中User-Agent域中的浏览器信息进行数据提取,实验表明该方法能够很好地确定层次数据间的层次关系,实现数据的精确提取。Proposes an effective extraction method for hierarchical data in mobile Web access log files based on visual analysis. Builds a data dictio- nary to ensure that no information is missing. Records the correlations and frequency of data to build a weighted network from the sample file based on the data dictionary. Visualizes the network, which accelerates the analysis about the hierarchical structure. Following the an- alyzing result, hierarchical structure digraph grows and topological sequence with weight priority can be gained to update the data dictio- nary. Saves data, which is extracted from the log files with the updated date dictionary by regex matching. The experimental results show that the proposed method can address the following goals: analyzing the hierarchical structure among hierarchical data; effective extraction for mobile Web access log; can be popularized in other hierarchical data.

关 键 词:数据提取 可视分析 层次数据 移动Web访问日志 User—Agent 

分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象