一种Web文本的自动提取方法  被引量:1

Method for automatic acquisition of text from web pages

在线阅读下载全文

作  者:印国成[1] 孙茂圣[1,2] 

机构地区:[1]扬州大学广陵学院,江苏扬州225009 [2]南京航空航天大学信息科学与技术学院,江苏南京210016

出  处:《江苏科技大学学报(自然科学版)》2010年第6期596-599,共4页Journal of Jiangsu University of Science and Technology:Natural Science Edition

基  金:江苏省自然科学基金资助项目(BK2009699)

摘  要:文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.Text is the leading source of knowledge in Web.However,the existing Web page with the html expression mixes text content and format control.This hinders the process of knowledge acquisition.This paper presented a separation method of the control of text and format oriented Web page,analyzing the html file and filtering all of the formatting control codes to get a page of plain text content.The method is universal and independent of language and domain of the text.Also,it can be used for the pretreatment of Web knowledge acquisition.

关 键 词:网页 文本 格式控制符 分离 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象