检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001 [2]哈尔滨商业大学计算中心,哈尔滨150028
出 处:《计算机工程与应用》2003年第1期17-18,26,共3页Computer Engineering and Applications
基 金:国家863高技术研究发展计划(编号:2001AA114101)
摘 要:文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。This paper gives a new method to compute the two statistical measures,interact information and difference of three -character information of adjacent characters,by utilizing two Chinese characters used as a word in Chinese sentences.Further,it resolves ambiguity word automatic segmentation in Chinese.In this paper,the test results appear that the right rate of separating ambiguity is90%.Compared with those by other methods,it improves the accuracy of ambiguity word automatic segmentation,particularly,compared with document Ⅰ,the complexity of time that there are much more information will reduce.
关 键 词:汉语二字应成词 歧义字段切分方法 中文信息处理 t-信息差 自动分词 汉语文本
分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.26