胡骏

作品数:5被引量:37H指数:3
导出分析报告
供职机构:合肥工业大学更多>>
发文主题:标签WEB新闻内容抽取文本块抽取更多>>
发文领域:自动化与计算机技术环境科学与工程更多>>
发文期刊:《计算机辅助设计与图形学学报》《计算机应用研究》《软件学报》《中国科学:信息科学》更多>>
所获基金:国家自然科学基金长江学者和创新团队发展计划国家高技术研究发展计划国家留学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-5
视图:
排序:
面向社交媒体的高质量内容识别被引量:2
《计算机辅助设计与图形学学报》2020年第6期943-949,共7页赵泉 胡骏 方全 钱胜胜 徐常胜 
国家自然科学基金(61432019,61702509,61802405,61720106006)。
如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一.现有的方法在训练中依赖大量的人工标注数据.针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基于正无标记(positive and unlabeled, ...
关键词:社交媒体 多媒体文章 质量识别 正无标记学习 图卷积网络 
一种自动分类的网页搜索排序算法被引量:4
《计算机应用研究》2019年第1期87-90,共4页刘铭瑀 刘学亮 胡骏 
国家自然科学基金资助项目(61472116;61502139);安徽省自然科学基金资助项目(1608085MF128)
针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和softmax回归分类模型的网页搜索排序算法。方法对网页文本进行数据预处理并利用词袋...
关键词:领域向量 BM25 softmax回归分类 网页排序 
基于文本块密度和标签路径覆盖率的网页正文抽取被引量:5
《计算机应用研究》2018年第6期1645-1650,共6页刘鹏程 胡骏 吴共庆 
国家重点研发计划资助项目(2016YFB1000901);国家自然科学基金资助项目(61273297;61229301;61673152);国家教育部创新团队发展计划资助项目(IRT13059);国家留学基金资助项目(201506695019)
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征...
关键词:正文抽取 文本块密度 标签路径覆盖率 特征融合 
基于块密度加权标签路径特征的Web新闻在线抽取被引量:3
《中国科学:信息科学》2017年第8期1078-1094,共17页吴共庆 刘鹏程 胡骏 胡学钢 
国家重点研发计划(批准号:2016YFB1000901);教育部创新团队发展计划(批准号:IRT13059);国家自然科学基金(批准号:612-73297;61673152);国家留学基金(批准号:201506695019)资助项目
Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本...
关键词:内容抽取 WEB新闻 文本块密度 标签路径特征 在线算法 
基于标签路径特征融合的在线Web新闻内容抽取被引量:23
《软件学报》2016年第3期714-735,共22页吴共庆 胡骏 李莉 徐喆昊 刘鹏程 胡学钢 吴信东 
国家自然科学基金(61273297;61229301;61273292);教育部创新团队发展计划(IRT13059);国家重点基础研究发展计划(973)(2013CB329604);国家高技术研究发展计划(863)(2012AA011005)~~
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例...
关键词:内容抽取 WEB新闻 标签路径特征 组合特征选择 特征融合 
检索报告 对象比较 聚类工具 使用帮助 返回顶部