检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]四川大学计算机学院,成都610065 [2]北京南瑞智芯微电子科技有限公司,昌平102200
出 处:《现代计算机》2015年第8期47-53,共7页Modern Computer
基 金:四川省科技厅项目(No.2013GZ0015)
摘 要:提出一种基于可视分析的层次数据提取方法,实现对移动Web访问日志中层次数据的精确高效提取。通过数据样本建立数据字典,确保没有信息遗漏,并根据字典统计样本并记录相关数据,建立数据网络权重图。可视化该网络,并以可视分析的方法确定数据间的层次结构,并以此构建数据层次结构有向图,结合结点权重进行拓扑排序,使用得到的拓扑序列更新数据字典。将待提取日志与数据字典中的关键词依次进行正则匹配,并保存提取结果。对移动Web访问日志中User-Agent域中的浏览器信息进行数据提取,实验表明该方法能够很好地确定层次数据间的层次关系,实现数据的精确提取。Proposes an effective extraction method for hierarchical data in mobile Web access log files based on visual analysis. Builds a data dictio- nary to ensure that no information is missing. Records the correlations and frequency of data to build a weighted network from the sample file based on the data dictionary. Visualizes the network, which accelerates the analysis about the hierarchical structure. Following the an- alyzing result, hierarchical structure digraph grows and topological sequence with weight priority can be gained to update the data dictio- nary. Saves data, which is extracted from the log files with the updated date dictionary by regex matching. The experimental results show that the proposed method can address the following goals: analyzing the hierarchical structure among hierarchical data; effective extraction for mobile Web access log; can be popularized in other hierarchical data.
关 键 词:数据提取 可视分析 层次数据 移动Web访问日志 User—Agent
分 类 号:TP393.092[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.117.227.191