基于混合模型的中文命名实体抽取系统  被引量:10

Chinese name entity extraction system based on a hybrid model

在线阅读下载全文

作  者:王睿[1] 张洁[1] 张由仪[1] 于禛[1] 姚天昉[1] 

机构地区:[1]上海交通大学计算机科学与工程系,上海200030

出  处:《清华大学学报(自然科学版)》2005年第S1期1908-1914,共7页Journal of Tsinghua University(Science and Technology)

摘  要:中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决。解决方案是:利用规则,对机器分词后的文本进行修正;提出“群山”模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等。根据实验结果,得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效。After summarizing and analyzing the state of the art on Chinese name entity extraction, we emphasize that three fundamental problems including word segmentation, domain, and method should be solved. Then we brought forward corresponding solutions: using rules to correct errors in texts after word segmentation; establishing specific rules for different domains based on a new "Mountain Chain" model; and combining statistical with linguistic method for treating different kinds of name entity separately. Accord...

关 键 词:分词 领域 统计学方法 语言学方法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象