基于RTTI的特殊网页文本提取技术研究

RESEARCH ON RTTI-BASED TEXT EXTRACTION TECHNIQUES FROM EXCEPTIONAL WEBPAGES

机构地区：[1]湖南大学软件学院,湖南长沙410082 [2]湖南公安高等专科学校计算机系,湖南长沙410138

出　　处：《计算机应用与软件》2010年第9期63-65,共3页Computer Applications and Software

基　　金：公安部科技创新计划项目(2006KJCXHNST024)

摘　　要：在分析与总结对网页中的文字的提取方法研究的基础上,针对采用脚本限制提取文字的特殊网页,作了深入的研究和分析,提出RTTI运行期类型信息解除限制和过滤干扰码的文字提取方法,使特殊网页文本的提取成为可能,为公安机关进行网络监察取证提供了技术支持。Based on the analysis and conclusion of researches on text extraction techniques from webpages, after thorough studies on excep- tional webpages which have been manually scripted to prevent text extraction, the authors put forward the RTTI （Run-Time Type Information） prevention elimination and interferential code filtration text extraction techniques to make it possible for text extraction from exceptional web- pages. These techniques are helpful for the public security bureau on network supervisory and evidence collection.

关键词：特殊网页信息提取 RTTI 干扰码脚本

分类号：TP393.092[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于RTTI的特殊网页文本提取技术研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于RTTI的特殊网页文本提取技术研究

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索