检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]扬州大学广陵学院,江苏扬州225009 [2]南京航空航天大学信息科学与技术学院,江苏南京210016
出 处:《江苏科技大学学报(自然科学版)》2010年第6期596-599,共4页Journal of Jiangsu University of Science and Technology:Natural Science Edition
基 金:江苏省自然科学基金资助项目(BK2009699)
摘 要:文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.Text is the leading source of knowledge in Web.However,the existing Web page with the html expression mixes text content and format control.This hinders the process of knowledge acquisition.This paper presented a separation method of the control of text and format oriented Web page,analyzing the html file and filtering all of the formatting control codes to get a page of plain text content.The method is universal and independent of language and domain of the text.Also,it can be used for the pretreatment of Web knowledge acquisition.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249