山东省自然科学基金(Y2008G19)

作品数:11被引量:44H指数:4
导出分析报告
相关作者:马军邵海敏杜言琦杨潇陈竹敏更多>>
相关机构:山东大学山东经济学院山东建筑大学清华大学更多>>
相关期刊:《模式识别与人工智能》《山东大学学报(理学版)》《计算机研究与发展》《智能系统学报》更多>>
相关主题:LDA主题模型WEB论坛多文档自动文摘HITS算法更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
一种基于LDA的Web论坛低质量回帖检测方法被引量:4
《计算机研究与发展》2012年第9期1937-1946,共10页韩晓晖 马军 邵海敏 薛冉 
国家自然科学基金项目(60970047;61103151;61173068);山东省自然科学基金项目(Y2008G19);山东大学自主创新基金项目(11150070613165)
为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比...
关键词:WEB论坛 主题模型 主题分布 低质量回帖 语义特征 分类 
基于衰退理论的Flickr热点事件检测方法
《中文信息学报》2012年第6期98-108,共11页薛冉 马军 韩晓晖 陈竹敏 
国家自然科学基金资助项目(60970047);山东省自然科学基金资助项目(Y2008G19);山东大学自主创新基金资助项目(11150070613165)
该文提出了一种基于衰退理论对Flickr数据进行热点事件检测的方法。该方法首先将从Flickr图像中提取的视觉词汇(Visual Words)与图像的文本信息加权合并成文档。然后训练LDA模型获得文档的主题分布作为其最终向量表示。在此基础上提出...
关键词:事件检测 视觉词汇 地理信息 LDA 衰退理论 
基于遗传规划集成学习的网络作弊检测
《中文信息学报》2012年第5期94-100,共7页牛小飞 马军 马少平 张冬梅 
国家自然科学基金资助项目(60970047;61103151;61173068);山东省自然科学基金资助项目(Y2008G19);山东省高等学校优秀青年教师国内访问学者资助项目
网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基...
关键词:网络作弊 集成学习 遗传规划 非平衡数据集分类 
一种基于图划分和图像搜索引擎的图像标注改善算法被引量:4
《计算机研究与发展》2011年第7期1246-1254,共9页刘峥 马军 
国家自然科学基金项目(60970047;60970048);山东省自然科学基金项目(Y2008G19);山东省科技攻关计划基金项目(2007GG10001002);山东省高等学校科技计划基金项目(J10LG69)
提出了一种基于图划分和图像搜索引擎的图像标注改善算法,通过对待标注图像的候选标注词进行去噪处理,提高标注的准确性.算法的核心思想是将候选标注词作为图的顶点,将标注词间的相关度作为边的权值,从而把图像标注改善问题转换为图划...
关键词:图像标注改善 图划分 Hash编码 海明距离 图像视觉特征 
有向标记根树之间的语义编辑距离
《模式识别与人工智能》2011年第6期816-824,共9页康琪 马军 
国家自然科学基金项目(No.60970047);中国博士后科学基金项目(No.20100471503);山东省自然科学基金项目(No.Y2008G19);山东省科技攻关项目(No.2007GG10001002;2008GG10001026)资助
有向标记根树之间的编辑距离(TED)被广泛应用在文档的结构化相似度计算上.文中提出有向标记根树之间的语义编辑距离(TSED)的概念,并给出计算公式.组合TED和TSED形成距离测度,并应用在XML文档的结构聚类上.实验表明该距离模型在结构化聚...
关键词:树编辑距离 文档聚类 结构相似度 语义相似性 
一种基于HITS算法的Blog文摘方法被引量:7
《中文信息学报》2011年第1期104-109,共6页苗家 马军 陈竹敏 
国家自然科学基金资助项目(60970047);山东省科技攻关资助项目(2007GG10001002;2008GG10001026);山东省自然科学基金资助项目(Y2008G19)
Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合...
关键词:文档自动摘要 BLOG 评论 HITS 
面向层次分类的文本特征选择方法被引量:2
《模式识别与人工智能》2011年第1期103-110,共8页祝翠玲 马军 张冬梅 
国家自然科学基金项目(No.60970047);山东省自然科学基金项目(No.Y2008G19);山东省科技攻关项目(No.2007GG10001002;2008GG10001026)资助
提出一种针对层次分类的文本特征选择方法.先给出类别层次相关度的概念,并利用分类树和训练数据在不同层次上的概率分布进行计算,进而得到分类树中不同类别的重要性.最后基于前面的计算结果,计算每个特征对类别的识别能力,并选择识别能...
关键词:文本特征选择 类别层次相关 层次分类 机器学习 
针对Web论坛的一种结构化数据自动抽取方法被引量:1
《山东大学学报(理学版)》2010年第5期42-47,共6页关冕 马军 
国家自然科学基金资助项目(60970047);山东省自然科学基金资助项目(Y2008G19);山东省科技攻关资助项目(2008GG10001026;2007GG10001002)
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页...
关键词:论坛 结构化数据 信息抽取 WEB挖掘 
主题模型LDA的多文档自动文摘被引量:24
《智能系统学报》2010年第2期169-176,共8页杨潇 马军 杨同峰 杜言琦 邵海敏 
国家自然科学基金资助项目(60970047);山东省自然科学基金资助项目(Y2008G19);山东省科技计划资助项目(2007GG10001002;2008GG10001026)
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型...
关键词:多文档自动文摘 句子分值计算 主题模型 LDA 主题数目 
基于版块的论坛增量搜集策略被引量:2
《中文信息学报》2010年第3期62-68,共7页杜言琦 马军 
国家自然科学基金资助项目(60970047);山东省科技攻关资助项目(2007GG10001002;2008GG10001026);山东省自然科学基金资助项目(Y2008G19)
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛...
关键词:计算机应用 中文信息处理 增量搜集 论坛爬虫 延迟 
检索报告 对象比较 聚类工具 使用帮助 返回顶部