中文微博命名实体识别  被引量:33

Named Entity Recognition on Chinese Microblog

在线阅读下载全文

作  者:邱泉清[1,2] 苗夺谦[1,2] 张志飞[1,2] 

机构地区:[1]同济大学计算机科学与技术系上海201804 [2]同济大学嵌入式系统与服务计算教育部重点实验室上海200092

出  处:《计算机科学》2013年第6期196-198,共3页Computer Science

基  金:国家自然科学基金项目(60970061,61075056,61103067);中央高校基本科研业务费专项资金资助项目资助

摘  要:微博这一媒体形式的迅速发展为命名实体识别提供了一个新的载体。根据微博文本的特点,提出针对中文微博的命名实体识别方法。首先,对微博文本做规范化处理,消除由于微博表达不规范造成的干扰;在建立中文人名库、常用地点库等知识库的基础上,选取适合微博的特征模板,使用条件随机场方法进行实体识别;同时,将正确的识别结果添加到知识库中以提升识别效果。在真实微博数据上的实验表明,该方法能够有效地完成中文微博的命名实体识别任务。The rapid development of microblog brings a new carrier for named entity recognition. The paper proposed an approach for named entity recognition on Chinese microblog according to the features of microblog. First of all, the pa- per normalized the text of the microblog and eliminated the interference caused by non-standard expression, then con- structed several knowledge bases, such as Chinese person names, common place names and organization names, and de- vised feature templates for the recognition method based on conditional random fields. Meanwhile the correct recognition results were added to the knowledge bases to improve the performance of recognition. The experiment results show that our approach is effective to recognize named entities on Chinese microblog.

关 键 词:中文信息处理 微博 命名实体 条件随机场 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象