检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西北农林科技大学信息工程学院陕西杨凌712100
出 处:《计算机应用与软件》2013年第6期93-96,136,共5页Computer Applications and Software
基 金:国家科技支撑计划项目(012BAH30F00);十二五科技支撑项目(2011BAD21D21B05)
摘 要:针对农业科技信息共享率低、分散分布等问题,应用Web信息抽取方法实现自动采集多源农业科技信息入库,采用XML文件实现失败重试机制。通过对日志文件进行处理,采用改进的k-means聚类方法建立用户访问模式,并得到访问模式的网页特征词及权重的集合,构建用户兴趣模型库,为来访会话推送网页。在实际应用中,定时更新用户模型库,从而保证了站点内容的及时性、推送服务的可靠性、可用性。To solve the problems of low sharing rate and scattered distribution the agricultural science and technology information has, we use web information extraction method to realise the automatic acquisition and warehousing of multi-source agricultural information, and employ XML file to achieve failures retry mechanism. By processing web log files and using improved k-means clustering method to establish user accessing pattern, we obtain the set of webpages feature words and its weight of the accessing pattern and construct the library of user interest models to push the webpage for visiting session. In practical application, the user models library is updated timely so as to guarantee the timeliness of web contents and the reliability and availability of push service.
关 键 词:信息抽取 用户兴趣模型 中文分词 定时机制 信息推送
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229