面向中文图书的自动标引模型构建及实验分析  被引量:2

Model Construction and Experiment Analysis of Automatic Indexing for Chinese Books

在线阅读下载全文

作  者:王昊[1] 邹杰利[1] 邓三鸿[1] 

机构地区:[1]南京大学信息管理学院,南京210093

出  处:《现代图书情报技术》2013年第7期55-62,共8页New Technology of Library and Information Service

基  金:国家863计划"以科技文献服务为主的搜索引擎研制"(项目编号:2011AA01A206);国家社会科学基金重点项目"基于语义的馆藏资源深度聚合与可视化展示研究"(项目编号:11AZD090)的研究成果之一

摘  要:针对中文图书关键词自动标引问题,引入条件随机场机器学习算法,通过对大量已有的中文图书手工关键词标引数据进行训练和学习,生成包含序列实体之间语义关系和规则特征的标注模型,并利用该标注模型进行机器预测,自动抽取出图书关键词。主要解决两个问题:鉴于条件随机场模型的参数选择会影响到系统的标注性能,从多个角度进行对比实验,确定针对中文图书关键词标引这一特定问题的条件随机场模型的最佳参数集合;探讨不同的观察特征对关键词标引的影响,通过实验论证4个能够有效提高标引性能的观察特征。最终建立起面向中文图书的最佳关键词标引模型。For the problem of automatic keywords indexing for Chinese books, this paper introduces the machine learning algorithm of Condition Radom Fields to deal with it. The method generates an annotation model including semantic relations and rule features among sequence entities though training the large number of existing keywords data of Chinese books indexed by manual, then uses the annotation model for machine predicting so that to automatically extract the books' keywords. The paper mainly solves two problems. First, because the parameters choice of CRFs will affect the indexing per-formance, the authors make comparative tests from several angles so as to identify the optimal parameter set of CRFs forthe specific problem of keywords indexing for Chinese books. Second, the authors discusse the effect of different observed features to the keywords indexing, and demonstrate four observed features which can improve the indexing performanceeffectively through the experiments analysis. Finally, the optimal model of keywords indexing oriented to Chinese books is constructed.

关 键 词:条件随机场 关键词标引 特征模板 字长窗口 特征函数 软边界参数 观察特征角色 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP181[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象