检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]乐山师范学院智能信息处理及应用实验室,四川乐山614000 [2]乐山师范学院计算机科学学院,四川乐山614000
出 处:《计算机应用与软件》2014年第5期106-109,共4页Computer Applications and Software
摘 要:藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。Automatic Tibetan word segmentation is one of the basic problems in natural language processing of Tibetan. In this paper,we design a new automatic Tibetan word segmentation system in light of the keys and difficulties in it,for example: the technologies of identification of caseauxiliary word,the ambiguity segmentation,and the unknown words recognition. The system uses the techniques of the dynamic word frequency update and the ambiguity treatment and unknown words recognition which are based on the word frequency of the context. The presented system has relatively high performance in terms of the recognition accuracy of ambiguities,the recognition rate of unknown word and the segmentation speed.
关 键 词:藏文自动分词 自然语言处理 格助词 动态词频更新 歧义处理 未登录词识别
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.128.205.62