基于层次特征的藏文人名识别研究  被引量:11

Research on recognition of Tibetan names based on hierarchical features

在线阅读下载全文

作  者:刘飞飞 王志娟[1,2] Liu Feifei;Wang Zhijuan(School of Information Engineering,Minzu University of China,Beijing 100081,China;National Language Resource Monitoring&Research Center of Minority Languages,Beijing 100081,China)

机构地区:[1]中央民族大学信息工程学院,北京100081 [2]国家语言资源监测与研究中心少数民族语言分中心,北京100081

出  处:《计算机应用研究》2018年第9期2583-2587,2596,共6页Application Research of Computers

基  金:国家自然科学基金重点资助项目(61331013);国家语委科研项目(WT125-46);中央民族大学一流大学一流学科研究生自主科研项目(10301-0170040601-184)

摘  要:为了提高藏文人名识别的效果,提出了结合三层的层次特征的藏文人名识别算法。提出了无须分词,仅在藏文音节粒度上,基于藏文人名三层特征:内部特征、上下文信息、并列关系特征,利用条件随机场(conditional random fields,CRF)算法进行藏文人名识别的研究。首先将人名的内部和上下文特征作为CRF特征,然后将人名并列关系特征设计为规则进一步提高识别效果。在不影响准确率的情况下,最终将人名识别的召回率提高了10.43%,综合F值达到了95.02%。其中对于藏族人名的F值提升了11%,音译人名识别的F值达到了94.09%。实验结果表明,该方法可以有效提升藏文人名的识别效果。In order to improve the effect of Tibetan name recognition,this paper designed the algorithm based on three levels of hierarchical features.It proposed a three-layer feature,which was based on the Tibetan character name without word-segmentation.The three-layer feature included internal features,the context information and the parallel relations feature.It used the conditional random fields(CRF)algorithm to identify the Tibetan name research.First,it considered the internal and context characteristics of the name as a CRF feature,and then considered the relationship between names as the rule to further improved the recognition effect.The recall was increased 10.43%and the F-value will reach 95.02%.Experiment shows that the method achieves a very good effect for recognition of Tibetan names.

关 键 词:人名识别 层次特征 藏文 条件随机场 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象