基于多模板隐马尔可夫模型的文本信息抽取算法  被引量:9

Information Extraction Algorithm Based on Multiple Templates Using Hidden Markov Model

在线阅读下载全文

作  者:钟敏娟[1] 郝谦[2] 刘云中[3] 

机构地区:[1]江西财经大学信息管理学院,南昌330013 [2]江西科技师范学院数学与计算机科学系,南昌330013 [3]深圳中兴通讯公司CDMA事业部,深圳300457

出  处:《计算机工程》2006年第2期203-205,共3页Computer Engineering

摘  要:针对训练数据来源的多样化,提出了基于多模板隐马尔可夫模型的文本信息抽取算法。该算法利用形式的聚类方法将训练数据聚成几个类,每个类代表一个模板,在聚类的基础上利用隐马尔可夫模型进行文本的信息抽取。实验结果表明,新算法具有较高的精确度和召回率。This paper proposes a new algorithm using hidden Markov model for information extraction based on multiple templates due to the variety of training data. This new algorithm firstly clusters the training data into multiple templates based on the format, and then combines hidden Markov model for information extraction. The experiment results show that the new algorithm outperforms the original one, which hasn't clustered the training data into multiple templates, in both recall and precision.

关 键 词:信息抽取 隐马尔可夫模型 多模板 聚类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象