云南高校图书馆联盟文献共享服务平台- 国家自然科学基金(50474033)

国家自然科学基金(50474033): 作品数：17被引量：69H指数：5; 导出分析报告; 相关作者：薛永生冯少荣张东站任仲晟董立红更多>>; 相关机构：厦门大学华南理工大学中国矿业大学（北京）西安科技大学更多>>; 相关期刊：《西安电子科技大学学报》《中国煤炭》《福建师范大学学报（自然科学版）》《华南理工大学学报（自然科学版）》更多>>; 相关主题：聚类算法信息抽取相似度文本聚类算法文本聚类更多>>; 相关领域：自动化与计算机技术矿业工程更多>>

基于树形结构的Web信息抽取: 《福建师范大学学报（自然科学版）》2009年第3期39-46,共8页任仲晟薛永生; 国家自然科学基金资助项目(50474033);福建省自然科学基金资助项目(A0310008);福建省重点科技项目(2003H043); 提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实...; 关键词：WEB数据抽取 WEB挖掘信息抽取

利用维护代价约束的物化视图选择方法: 《华中科技大学学报（自然科学版）》2009年第5期57-60,共4页冯少荣; 国家自然科学基金资助项目(50474033); 为了在一定维护代价约束条件下,使查询过程中花费的总查询成本最优化,提出了最小/最大候选集变换算法.该算法构造最大候选视图集和最小候选视图集,基于最小有效的极大基数配比技术,并通过单位维护代价内的查询收益而设计的代价计算模型...; 关键词：物化视图视图选择维护代价候选集查询收益

An efficient embedding tree matching algorithm based on metaphoric dependency syntax tree: 《Journal of Central South University》2009年第2期275-279,共5页冯少荣肖文俊; Project(50474033)supported by the National Natural Science Foundation of China; To find out all dependency relationships in which metaphors probably exist between syntax constituents in a given sentence,a dependency tree matching algorithm oriented to Chinese metaphor processing is proposed based...; 关键词：pattern recognition tree matching algorithm dependency tree rule matching metaphor information processing

一种提高文本聚类算法质量的方法被引量：3: 《同济大学学报（自然科学版）》2008年第12期1712-1718,共7页冯少荣; 国家自然科学基金资助项目(50474033); 针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先...; 关键词：文本聚类语义距离最近邻聚类相似度聚类算法

一种提高DBSCAN聚类算法质量的新方法被引量：14: 《西安电子科技大学学报》2008年第3期523-529,共7页冯少荣肖文俊; 国家自然科学基金资助(50474033); 针对基于密度带有"噪声"的空间聚类应用(DBSCAN)聚类算法存在的3个主要问题:输入参数敏感、对内存要求高、数据分布不均匀时影响聚类效果,提出了一种基于遗传方法的DBSCAN算法改进方案数据分区中使用遗传思想的DBSCAN算法(DPDGA)来提高...; 关键词：聚类算法遗传算法数据划分密度

矿业信息质量评估与应用研究被引量：1: 《西安科技大学学报》2008年第3期419-422,共4页董立红; 国家自然科学基金资助项目(50474033); 信息质量是影响决策成败的关键因素之一,研究了描述矿业信息质量的关键维度,定义了各个维度并给出了度量公式,分析了矿业监测信息质量的正确性维度与时效性维度之间的关系,建立了矿业监测信息质量的一般评估算法,并通过算例分析验证了...; 关键词：矿业信息信息质量维度

基于语义距离的高效文本聚类算法被引量：15: 《华南理工大学学报（自然科学版）》2008年第5期30-37,共8页冯少荣肖文俊; 国家自然科学基金资助项目(50474033); 针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二...; 关键词：文本聚类语义距离相似度最近邻聚类聚类算法

基于页面标签的Web结构化数据抽取被引量：8: 《计算机科学》2007年第10期133-136,共4页任仲晟薛永生; 国家自然科学基金(50474033);福建省自然科学基金(A0310008);福建省重点科技项目(2003H043); 本文研究了从data intensive类型的Web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim- HTree,有效地减少了识别数据记录的...; 关键词：WEB数据抽取 WEB挖掘结构化数据信息抽取

矿业安全数据源质量评价研究被引量：1: 《中国煤炭》2007年第8期65-66,共2页刘开南董立红; 国家自然科学基金(50474033)的资助; 结合矿业安全信息特征,定义了相应的数据质量维度,给出了具体的数据质量评价方法,建立了针对矿业数据仓库数据源集成的预处理模型,实现了矿业数据仓库数据源质量评价。; 关键词：矿业安全信息数据质量质量评价

基于分区分类法快速更新频繁项集: 《计算机工程与应用》2007年第9期170-173,共4页蔡进薛永生张东站; 国家自然科学基金(the National Natural Science Foundation of China under Grant No.50474033);福建省自然科学基金(the Natural Science Foundation of Fujian Province of China under Grant No.A0310008);福建省高新技术研究开放计划重点项目(No.2003H043)。; 目前已提出了许多频繁项集更新算法,但是它们往往需要至少扫描一次原数据库,且会丢失一些重要规则。为此,文章提出了一种新的快速更新频繁项集算法CUFIA(Classifying Update Frequent Itemsets Algorithm),该算法通过对新增事务数据分...; 关键词：关联规则增量式更新完全频繁项集次频繁项集弱频繁项集

国家自然科学基金(50474033)