检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨锐[1] 刘毅[1] 张敏[1] 张军[1] 陈伟[1]
机构地区:[1]中国科学院国家科学图书馆武汉分馆,湖北武汉430071
出 处:《计算机应用与软件》2015年第6期66-71,103,共7页Computer Applications and Software
基 金:中国科学院战略性先导科技专项基金项目(XDA07080205)
摘 要:针对网络环境下文本挖掘技术在煤炭领域科研信息监测分析平台中的应用,首先对基于Web方式的文本挖掘开源工具比较分析,然后利用开源工具从基本特征提取、主题词抽取、自动分类和主题聚类等几个环节展开应用,最后利用TF-IDF算法实现煤炭领域热点主题趋势对比分析,为准确把握煤炭领域热点动态信息提供参考依据。In light of the application of text mining technology in network environment on the monitoring and analyses platform for scientific research information in coal fields,first we compare and analyse the Web-based text mining open source tools,and then carry out the application using open source tools from a couple of links including basic feature extraction,keyword extraction,automatic classification and topic clustering,etc.,and finally realise the comparative analysis on the trend of hot topics using TF-IDF algorithm.These provide reference basis for accurately grasping the hot dynamic information in coal fields.
关 键 词:Carrot2 Lingpipe Mahout 自动分类 主题聚类
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.15.7.155