基于C4.5的论文元数据抽取算法研究  被引量:4

Research of paper metadata extraction algorithm based on C4.5

在线阅读下载全文

作  者:欧阳辉[1] 禄乐滨[1] 钱建立[1] 

机构地区:[1]空军工程大学电讯工程学院,陕西西安710077

出  处:《计算机工程与设计》2010年第16期3708-3711,共4页Computer Engineering and Design

基  金:陕西省科学技术研究发展计划基金项目(2007K04-11)

摘  要:基于特征相似度的论文元数据抽取算法与传统的DOM树方法相比,提高了论文元数据的抽取成功率。但论文元数据的抽取效率却不高,而论文元数据的抽取与蜘蛛的论文爬取是同时进行的,对元数据的抽取有实时性要求,因此影响了论文数据量的增加。经过比较研究,利用决策树中的C4.5算法对特征相似度算法进行改进,论文元数据的抽取成功率提高了2%,抽取效率提高了62%。The algorithm based on paper metadata extraction algorithm improved greatly the extraction success rate compared with traditional method of DOM.But the algorithm of feature similarity is inefficient and hinders the increasing of the number of theses because of the real-time require requirement.The new feature similarity algorithm is improved by the algorithm of C4.5,and the result shows that the extraction success rate increase of 2%,and the efficiency increase of 62%.

关 键 词:元数据 抽取 决策树 C4.5 特征相似度 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象