一种Web文本的自动提取方法被引量：1

Method for automatic acquisition of text from web pages

机构地区：[1]扬州大学广陵学院,江苏扬州225009 [2]南京航空航天大学信息科学与技术学院,江苏南京210016

出　　处：《江苏科技大学学报（自然科学版）》2010年第6期596-599,共4页Journal of Jiangsu University of Science and Technology:Natural Science Edition

基　　金：江苏省自然科学基金资助项目(BK2009699)

摘　　要：文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.Text is the leading source of knowledge in Web.However,the existing Web page with the html expression mixes text content and format control.This hinders the process of knowledge acquisition.This paper presented a separation method of the control of text and format oriented Web page,analyzing the html file and filtering all of the formatting control codes to get a page of plain text content.The method is universal and independent of language and domain of the text.Also,it can be used for the pretreatment of Web knowledge acquisition.

关键词：网页文本格式控制符分离

分类号：TP393[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种Web文本的自动提取方法被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种Web文本的自动提取方法 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种Web文本的自动提取方法被引量：1