韩晓晖

作品数:5被引量:47H指数:3
导出分析报告
供职机构:山东大学更多>>
发文主题:主题模型LDADEEP_WEBDEEP基于网页更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《中文信息学报》《计算机研究与发展》《软件学报》更多>>
所获基金:国家自然科学基金国家教育部博士点基金山东省科技攻关计划山东大学自主创新基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-5
视图:
排序:
一种基于LDA的Web论坛低质量回帖检测方法被引量:4
《计算机研究与发展》2012年第9期1937-1946,共10页韩晓晖 马军 邵海敏 薛冉 
国家自然科学基金项目(60970047;61103151;61173068);山东省自然科学基金项目(Y2008G19);山东大学自主创新基金项目(11150070613165)
为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比...
关键词:WEB论坛 主题模型 主题分布 低质量回帖 语义特征 分类 
基于衰退理论的Flickr热点事件检测方法
《中文信息学报》2012年第6期98-108,共11页薛冉 马军 韩晓晖 陈竹敏 
国家自然科学基金资助项目(60970047);山东省自然科学基金资助项目(Y2008G19);山东大学自主创新基金资助项目(11150070613165)
该文提出了一种基于衰退理论对Flickr数据进行热点事件检测的方法。该方法首先将从Flickr图像中提取的视觉词汇(Visual Words)与图像的文本信息加权合并成文档。然后训练LDA模型获得文档的主题分布作为其最终向量表示。在此基础上提出...
关键词:事件检测 视觉词汇 地理信息 LDA 衰退理论 
用户评论中的标签抽取以及排序被引量:11
《中文信息学报》2012年第5期14-19,45,共7页李丕绩 马军 张冬梅 韩晓晖 
国家自然科学基金资助项目(60970047;61103151;61173068);教育部博士点基金资助项目(20110131110028)
对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独...
关键词:意见挖掘 主题模型 语义独立 标签抽取 排序 
面向主题爬取的多粒度URLs优先级计算方法被引量:1
《中文信息学报》2009年第3期31-38,共8页陈竹敏 马军 韩晓晖 雷景生 
高等学校博士学科点专项科研基金项目(20070422107);山东省科技攻关项目(2007GG10001002);海南省自然科学基金项目(80546)
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对...
关键词:计算机应用 中文信息处理 主题爬取 优先级计算 网页分块 相关度计算 
基于网页上下文的Deep Web数据库分类被引量:31
《软件学报》2008年第2期267-274,共8页马军 宋玲 韩晓晖 闫泼 
Supported by the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No.20070422107 (高等学校博士学科点专项科研基金);the Key Science-Technology Project of Shandong Province of China under Grant No.2007GG10001002 (山东省科技攻关项目)
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属...
关键词:DEEP Web 隐式Web 数据库分类 内容文本抽取 语义分类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部