抽取算法

作品数:169被引量:649H指数:12
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:杨静宇任世锦阮彤叶琪谢飞更多>>
相关机构:北京邮电大学浙江大学南京理工大学南京大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家教育部博士点基金国家社会科学基金国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机应用与软件x
条 记 录,以下是1-5
视图:
排序:
基于LDA的问答网站话题抽取算法被引量:2
《计算机应用与软件》2016年第4期95-98,共4页战学刚 王晓 
为了帮助用户在使用问答网站时准确地描述所提问题的话题,对社会化问答网站问题及话题进行了建模,发现问题的潜在语义关系,提出一种基于潜在狄利克雷分布LDA(Latent Dirichlet Allocation)的话题抽取算法。该算法通过挖掘问题与问题之...
关键词:LDA 问答网站 协同过滤 话题模型 
基于改进SVM和HMM的文本信息抽取算法被引量:6
《计算机应用与软件》2015年第11期281-284,292,共5页孙师尧 妙全兴 
传统的文本信息抽取算法通常基于词典、规则或其他模型实现,但由于词典建立困难、规则设定模糊或模型结构单一等原因,信息抽取的准确性通常较低。针对传统的文本信息抽取算法存在的多种不足,提出一种基于混合模型的文本信息抽取算法。...
关键词:信息抽取 支持向量机隐 马尔可夫模型 机器学习 
基于DOM状态转换的隐网页信息抽取算法被引量:5
《计算机应用与软件》2015年第9期17-21,共5页房勇 李银胜 
国家科技支撑计划项目(2011BAH18B05)
由于网页大量包含动态Java Script脚本,造成大部分网页内容对传统的网页爬虫不可见。为此,提出一种基于DOM状态转换的隐网页信息抽取算法。该算法增量地构建DOM状态转换机,以DOM节点及其点击事件作为状态机的输入事件。对能够引起目标...
关键词:WEB信息抽取 隐Web 网页爬虫 
基于分块的新闻网页信息抽取算法被引量:6
《计算机应用与软件》2015年第4期317-322,共6页姬鑫 钟诚 
广西科学研究与技术开发计划项目(桂科能1140008-3B);广西研究生教育创新计划
为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的...
关键词:网页信息抽取 模板页 分块 相同噪音块 同类噪音块 特殊噪音块 
一种基于标签路径聚类的文本信息抽取算法被引量:2
《计算机应用与软件》2010年第11期199-202,共4页刘云峰 
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法。该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页.分割算法快速判定网页的关键部...
关键词:XPATH 网页分割 信息抽取 聚类 阈值 
检索报告 对象比较 聚类工具 使用帮助 返回顶部