一种Web信息抽取规则的优化方法  被引量:3

An optimization method for Web information extraction rules

在线阅读下载全文

作  者:李向阳[1] 戴江山[1] 张亚非[2] 

机构地区:[1]解放军理工大学通信工程学院,江苏南京210007 [2]解放军理工大学训练部,江苏南京210007

出  处:《兰州理工大学学报》2006年第1期90-93,共4页Journal of Lanzhou University of Technology

基  金:国家自然科学基金(60303024)

摘  要:提出一种Web信息抽取规则的优化方法,用于提高信息抽取的效率.采用分级制的思想,将原有规则中的限制条件分为粗规则和细规则两部分.粗规则面向网页中所有的信息片断,用于信息的初步过滤;细规则面向过滤后的信息片断,用于抽取最终的信息.由此,避免了将规则中的限制条件应用于网页中的所有信息片断,达到了减少计算量、提高抽取速度的目的.An optimization method for Web information extraction rules is presented to improve the efficiency of extraction. A graduation mechanism is employed to classify the in initial rule set into rough and fine rules according to the restrictions in it. While rough rules are for the purpose of filtering all fragments in a Web page, fine rules are used for the fragments reserved by the rough rules and used to extract the final informations. Therefore, the employment of all restrictions in the initial rule set to all fragments can be avoided and the computation in the extraction process reduced.

关 键 词:分级制 路径表达式 信息抽取 规则优化 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象