通用文本处理方法的研究与设计  被引量:3

Research and Design of General Text Processing Method

在线阅读下载全文

作  者:宋友[1] 梁士兴 黄璐[1,2] 

机构地区:[1]北京航空航天大学软件学院,北京100191 [2]国际商业机器有限公司中国开发中心,北京100193

出  处:《计算机工程》2010年第6期1-4,共4页Computer Engineering

基  金:国家自然科学基金资助项目(10601029);北京市教育委员会共建基金资助项目(TS2047)

摘  要:设计描述通用文本处理逻辑的规则以及执行规则的引擎,使开发文本处理程序简化为开发应用规则。用XML描述规则的数据模型,规则元素包括原子规则、规则集、前置条件和数据上下文,在规则中用正则表达式实现文本匹配,用转义符和脚本语言实现多种转换逻辑。利用该方法进行Web主题文本提取,验证了规则的合理性和引擎的有效性。A rule is defined to describe the logic of text processing, and an engine is designed to execute the rule, with which text processing is simplified from programming to writing rule. A model of the rule is defined based on XML. The rule includes atom-rules, rule-sets, rule-applications and data contexts. The rule can match text with regular expression, and transform the matched results with escape character and script language. An experiment of extracting Web topic text is given to verify the rationality of the rule and the efficiency of the engine.

关 键 词:文本处理 正则表达式 脚本语言 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象