检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西师范大学,广西桂林541004
出 处:《计算机技术与发展》2010年第1期197-200,共4页Computer Technology and Development
基 金:广西自然科学基金(桂科自0640069)
摘 要:基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。Information extraction based web page structure is one of three web data mining s research fields.Key technology of the research is how to recognize web page s organization form and mine the needed information.Intrduces a new block topic-extracted algorithm based on semantic block.Compared with traditional information extraction based on web page,it is more accordant to the fact and the advantage of granularity is evident.This algorithm gives different block weight values according to the importance of different blocks in a web page. Extract useful information for users according to magnitude of block weight. Simulation experiment was preformed for this algorithm. This algorithm has high practicability and effectiveness.
关 键 词:语义Block Block权值 Block主题提取 WEB信息挖掘
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.244