检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]青海师范大学藏文信息处理教育部重点实验室,青海西宁810008 [2]青海师范大学民族师范学院,青海西宁810008
出 处:《西北民族大学学报(自然科学版)》2017年第3期1-5,共5页Journal of Northwest Minzu University(Natural Science)
基 金:青海省科技计划项目(2017-GX-146);青海师范大学中青年科研基金项目(17ZR11)
摘 要:藏族人名的性别自动识别是自然语言处理中非常重要的基础性问题之一.文章中提出了融合音节特征的SVM模型藏族人名性别识别方法,采用支持向量机(SVM)模型为基本框架,依据藏族人名的构词特征和统计分析,设计了特征模板,使支持向量机模型有效地处理藏族人名性别识别问题.实验结果表明,在包含18 821个藏族人名的103974个句子中,随机抽取3 764个藏族人名作为测试语料,对SVM的高斯核、线性核、多项式核和S型核等4个常用核函数做了实验,性别自动识别的准确率分别达到99.98%、98.81%、96.98%和95.45%.The automatic identification of Tibetan people's name is one of the fundamental and important issues in natural language processing.This paper presents a syllabic characteristics fused gender identification method of Tibetan people's name.This method used support vector machine(SVM)model as the basic framework and designed characteristic template according to the formation feature of Tibetan name and statistical analysis.Then the support vector machine(SVM)model can effectively deal with the gender identification problem of Tibetan name.Experimental results show that depend on a random sample of 3764 Tibetan names as test corpus in 18821 Tibetan names from103974 sentences,we tested four commonly functions which include the gauss kernel,linear kernel,polynomial kernel and S type nuclear.The automatic gender identification accuracy respectively reached 99.98%,98.81%,98.81% and 99.98%.
关 键 词:藏族人名 性别识别 音节特征 支持向量机(SVM)
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.69