一种基于词编码的中文文档格式  被引量:1

Novel Chinese Text Format Based on Word Encoding

在线阅读下载全文

作  者:焦慧[1] 刘迁[1] 贾惠波[2] 

机构地区:[1]清华大学精密仪器与机械学系,北京100084 [2]清华大学光盘国家工程研究中心,北京100084

出  处:《计算机科学》2008年第10期162-164,共3页Computer Science

摘  要:分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。The key reasons why Chinese word automatic segmentation arises and the difficulties in the process were analyzed. This paper presented a novel Chinese text encoding method and a new format. In this format,words become the smallest information unit of the texts, which makes the segmentation unnecessary and avoids the bad effects on CIP (Chinese Information Processing). A new encoding format that encodes every word (not character) was adopted. The difficulty of ambiguity was solved by using the encoding method. A new idea of solving the unknown word problem with the text format based on word encoding was presented. Statistical analysis was adopted to conduct the experiment of keyword extraction based on word platform. The experimental results are satisfying.

关 键 词:中文信息处理 词典码 文档格式 自动分词 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TN919.81[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象