藏文网页抓取及编码统一转换的系统研究  被引量:4

在线阅读下载全文

作  者:陈琪[1] 李永宏[1] 于洪志[1] 

机构地区:[1]西北民族大学中国民族信息技术研究院,甘肃兰州730030

出  处:《西北民族大学学报(自然科学版)》2009年第2期22-26,共5页Journal of Northwest Minzu University(Natural Science)

基  金:国家自然科学基金(60773052);国家教育部基金项目(MZ115-78)

摘  要:藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.

关 键 词:藏文网页 抓取 编码识别 编码转换 

分 类 号:TP393.02[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象