基于启发式规则的多记录页面分隔符识别方法  被引量:1

在线阅读下载全文

作  者:胡大洋[1] 

机构地区:[1]盐城工学院计算机应用中心,江苏盐城224000

出  处:《软件导刊》2009年第9期50-51,共2页Software Guide

摘  要:从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符,如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。

关 键 词:信息提取 半结构化信息 非结构化信息 记录边界 记录分隔符 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象