检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学精密仪器与机械学系,北京100084 [2]清华大学光盘国家工程研究中心,北京100084
出 处:《计算机科学》2008年第10期162-164,共3页Computer Science
摘 要:分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。The key reasons why Chinese word automatic segmentation arises and the difficulties in the process were analyzed. This paper presented a novel Chinese text encoding method and a new format. In this format,words become the smallest information unit of the texts, which makes the segmentation unnecessary and avoids the bad effects on CIP (Chinese Information Processing). A new encoding format that encodes every word (not character) was adopted. The difficulty of ambiguity was solved by using the encoding method. A new idea of solving the unknown word problem with the text format based on word encoding was presented. Statistical analysis was adopted to conduct the experiment of keyword extraction based on word platform. The experimental results are satisfying.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.147.13.233