沈抖

作品数:2被引量:22H指数:2
导出分析报告
供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
发文主题:网页分类网页网络挖掘文本分类CONTENT更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《清华大学学报(自然科学版)》《电子学报》更多>>
所获基金:国家重点基础研究发展计划国家自然科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-2
视图:
排序:
面向网页分类的网页摘要方法被引量:5
《电子学报》2006年第8期1475-1480,共6页鲁明羽 沈抖 郭崇慧 陆玉昌 
国家自然科学基金(No.60473115)
网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Bod...
关键词:网页分类 网页摘要 CONTENT BODY 混合摘要方法 
网页分类技术被引量:18
《清华大学学报(自然科学版)》2004年第1期65-68,共4页孙建涛 沈抖 陆玉昌 石纯一 
国家"九七三"基础研究基金项目(G1998030414)
网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和...
关键词:网页分类 机器学习 文本分类 网络挖掘 
检索报告 对象比较 聚类工具 使用帮助 返回顶部