基于Web的专利双语语料自动获取研究及实现——以esp@cenet数据库为例  被引量:9

Research and Implement of Automatic Patent Bilingual Corpus Extraction from Web——Taking esp@cenet as an Example

在线阅读下载全文

作  者:吴琳[1] 魏星[2] 霍翠婷[3] 

机构地区:[1]中国科学技术信息研究所,北京100038 [2]北京理工大学计算机学院,北京100081 [3]北京万方数据股份有限公司,北京100038

出  处:《现代图书情报技术》2009年第9期57-63,共7页New Technology of Library and Information Service

基  金:国家科技支撑计划基金项目"多语言信息服务环境关键技术研究与应用"(项目编号:2006BAH03B02);"科技文献信息服务系统应用示范"(项目编号:2006BAH03B06)的研究成果之一

摘  要:针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法。该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库。This paper introduces the research of an available method to automatically extract high quality translation pairs from patent database for patent resources. It analyzes the features of URLs to extract detail Web pages of patent data for batch downloading, and then uses regular expression matches to extract necessary information from Web pages through page parsed. At last, it makes bilingual parallel corpus after merging data.

关 键 词:专利 著录信息 双语平行语料 网页解析 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象