检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:常为领[1] 方滨兴[1,2] 云晓春[2] 王树鹏[2] 余翔湛[1]
机构地区:[1]哈尔滨工业大学计算机网络与信息安全技术研究中心,黑龙江哈尔滨150001 [2]中国科学院计算技术研究所,北京100190
出 处:《中文信息学报》2010年第5期96-105,共10页Journal of Chinese Information Processing
基 金:国家重点基础研究发展计划"973"基金资助项目(2007CB311101);国家863高技术研究发展计划基金资助项目(2009AA01A403;2007AA01Z406;2007AA010501;2009AA01Z437)
摘 要:该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86。CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能。After surveying the proposal for compressing Chinese text,we present in this paper a universal compression algorithm for Chinese text,CRecode,which demonstrates an accurate understanding of the properties of the ANSI coded Chinese text.CRecode highlights the importance of pre-processing work for Chinese: it collect the Chinese Characters and sorts them by frequency order,then recode them into 8-bit,16-bit or 24-bit code.CRecode can act as a pre-processing tool for ANSI coded Chinese text by all the popular compression utilities,which can improve their compression ratio from 4% to 30%.
关 键 词:CRecode 数据压缩 HUFFMAN 压缩算法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3