基于支持4字节编码汉字的数字化及全文检索发布系统  

在线阅读下载全文

作  者:朱人杰 蒋贤春 郑珑 

机构地区:[1]北京中易中标电子信息技术有限公司,北京100029

出  处:《数字图书馆论坛》2007年第5期60-67,共8页Digital Library Forum

摘  要:全文数字化是信息资源建设的方向,研究型资源的全文化检索尤其重要。计算器现有系统能处理的汉字,对于中文古籍、辞书、人名地名系统、报刊出版远不够用。几年前,国际标准ISO/IEC10646:2003(即Unicode4.0)编码汉字字符集已经拥有7万余汉字,但其中有4万2千多个汉字是4字节编码,在应用领域的处理方面有一定难度。文章介绍中易公司处理4字节编码汉字的技术成果,并结合在古籍数字化项目中的实际应用,着重说明用自行开发的7万汉字的应用系统,支持数字化工程和全文检索发布的技术特点,强调超大字符集、XML开放数据等标准技术的应用等。通过实践,总结出一套基于支持超大字符集4字节编码汉字的数字化的应用技术,以及信息全文检索发布的可行方法,解决了古籍和文献的数字化工程中的技术难点。

关 键 词:超大字符集 古籍 数字化 全文检索 ISO10646-2003 XML 

分 类 号:G276[文化科学—档案学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象