检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]江苏科技大学电子信息学院,江苏镇江212003 [2]中国科学院声学研究所,北京100080
出 处:《计算机技术与发展》2008年第10期37-39,共3页Computer Technology and Development
基 金:国家自然科学基金(60573064)
摘 要:Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。The non-subject information is often contained in the Web homepage. The useless information must be rejected in the process of forming the useful text information. The text classification is very important to the text information further processing. It has become another research topic in the information search field. Proposed a method of extracting the text information based on the HTML unique feature, simultaneously, and unified the article title information, and realized the text automatic categorization. The method is proved to feasible and realizable to enhance the homepage extraction and text categorization through the detailed demonstration.
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.248