杨建武

作品数:18被引量:143H指数:7
导出分析报告
供职机构:北京大学计算机科学技术研究所更多>>
发文主题:INTERNETXML半结构化文档聚类研究数据库更多>>
发文领域:自动化与计算机技术经济管理语言文字更多>>
发文期刊:《计算机应用》《华南理工大学学报(自然科学版)》《计算机工程与应用》《软件学报》更多>>
所获基金:国家高技术研究发展计划国家自然科学基金国家教育部博士点基金国家技术创新计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于核方法的XML文档自动分类被引量:14
《计算机学报》2011年第2期353-359,共7页杨建武 
国家自然科学基金(60642001;60875033);国家"八六三"高技术研究发展计划项目基金(2008AA01Z421)资助
支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接...
关键词:XML文档 文档分类 核函数 支持向量机 文档模型 
基于后缀树的Web检索结果聚类标签生成方法被引量:9
《中文信息学报》2009年第2期83-88,共6页骆雄武 万小军 杨建武 吴於茜 
国家十一五资助项目(2006BAH02A10);国家863计划资助项目(2008AA01Z421)
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之...
关键词:计算机应用 中文信息处理 检索结果聚类 聚类标签生成 后缀树 
汉语比较句识别研究被引量:16
《中文信息学报》2008年第5期30-38,共9页黄小江 万小军 杨建武 肖建国 
国家863计划资助项目(2008AA01Z421);国家自然科学基金资助项目(60703064);教育部高等学校博士点新教师基金资助项目(20070001059)
比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一...
关键词:计算机应用 中文信息处理 汉语比较句识别 比较挖掘 文本分类 序列模式 
2005年863网页检索ICST评测报告被引量:1
《中文信息学报》2006年第B03期102-106,共5页程羽心 路斌 刘缙 杨建武 马龙 
2005年863评测任务是在CWT100G这个90G的数据桑上检索相关网页。评测给出了50个包含title、dese、narr的主题,要求根据这些主题自动和人工生成查询。ICST在这次评测中使用了倒排索引技术蛤数据桑建索引,通过给多个查询调整权重和多个...
关键词:相关检索 863评测 CWTl00G 查询生成 域查询 
基于核矩阵学习的XML文档相似度量方法被引量:10
《软件学报》2006年第5期991-1000,共10页杨建武 陈晓鸥 
XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlinkvectormodel,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的...
关键词:XML文档 相似度量 核矩阵学习 文本挖掘 
基于倒排索引的文本相似搜索被引量:4
《计算机工程》2005年第5期1-3,共3页杨建武 陈晓鸥 
根据文本向量的维分布的稀疏性,提出了基于倒排索引的文本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量文本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。
关键词:相似搜索 倒排索引 多维索引 文本相似搜索 
基于Quick Sorting的快速分页排序算法被引量:1
《计算机工程》2005年第4期82-84,共3页杨建武 刘缙 
提出了分页排序的概念和基于Quick Sorting的快速分页排序算法(Quick Page Sorting) 以及基于Hint缓存机制的算法实现技术。实验表明,在数万至数百万数据总量情况下,Quick Page Soring的速度比Quick Sorting快10倍左右,大大提高了应用...
关键词:排序 分页排序 算法 快速分页排序 
基于语义拓扑网的反馈学习技术被引量:1
《计算机工程》2005年第1期6-8,共3页杨建武 万小军 
国家技术创新计划资助项目
为了从海量数据中快捷有效地获取所需的信息,提出了语义拓扑网的概念以及基于语义拓扑网的反馈学习方法。通过将数据对象的内容特征与语义特征进行有机地结合并构成语义拓扑网。在反馈过程中利用语义拓扑网,不断学习记忆并指导搜索。实...
关键词:相关反馈 语义拓扑网 检索系统 
一种基于SVM的多层分类策略
《计算机工程》2005年第1期73-75,113,共4页路斌 杨建武 陈晓鸥 
提出了一种新的基于反例文档选择的多层分类策略1-vs-brothers。与原策略相比,该策略在训练阶段仅仅选择兄弟节点包含的样例文档作为反例,从而减少了较深层次节点需要学习的文档。实验结果表明,在该文的实验条件下,基于该策略的算法使...
关键词:支持向量机 自动分类 多层分类 I-vs-brothers策略 
在线新闻主题检测系统的设计与应用被引量:7
《华南理工大学学报(自然科学版)》2004年第z1期42-46,共5页万小军 杨建武 
利用主题检测技术可以从海量新闻信息中实时检测到主题信息,从而将新闻信息按照主题组织并加以利用.文中通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统并进行了实验.结果表明了该系统的有效性.该系统在新华...
关键词:主题检测 增量式聚类算法 加窗策略 自适应倒排文档频率 
检索报告 对象比较 聚类工具 使用帮助 返回顶部