半结构化文本

作品数:11被引量:22H指数:2
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:杨春磊邵堃潘小燕赵宇郭军更多>>
相关机构:哈尔滨工业大学北京邮电大学合肥工业大学北京工业大学更多>>
相关期刊:《计算机仿真》《北京工业大学学报》《情报理论与实践》《数字通信世界》更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金北京市自然科学基金浙江省公益性技术应用研究计划项目更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于隐马尔可夫模型的半结构化文本信息抽取研究
《数字通信世界》2024年第6期84-85,93,共3页蒲治宇 
随着互联网和信息技术的快速发展,大量的文本数据在互联网上被生成和存储,这些文本数据包含了丰富的信息。然而,大部分文本数据都是半结构化的,即数据的组织结构不完整或不规则,不适合直接进行分析和处理。因此,半结构化文本信息抽取成...
关键词:半结构化文本 信息抽取 隐马尔科夫模型 
面向招标文件的半结构化文本自动生成被引量:1
《计算机工程》2023年第3期67-72,共6页刘金硕 刘宁 
国家自然科学基金“网络恶意信息中人物身份消歧与溯源鉴别方法与关键技术研究”(U193607);国家重点研发计划(2020YFA0607902)。
招标文件范本总结了历史招标文件的核心内容。针对现有文本摘要方法无法有效提取文本主题结构、忽略时间特征对文本重要性的影响等问题,提出一种基于多头图注意力网络的半结构化文本自动生成(SGMG)模型。在模型预处理层中,利用BERT预训...
关键词:文本生成 半结构化文本 主题提取 图注意力网络 异质图 
机器学习下半结构化文本信息抽取仿真
《计算机仿真》2023年第2期540-544,共5页朱小龙 邱林 
为了在海量信息源中抽取特定信息,将高维信息转换为低维信息,降低信息抽取难度,提出基于机器学习的半结构化文本信息抽取算法。利用自编码网络对文本信息实行降维处理,将高维的文本信息转变为低维信息,降低信息抽取的复杂度;在单词相似...
关键词:机器学习 自编码网络 信息聚类 隐马尔可夫模型 半结构化文本 信息抽取 
领域文本信息抽取中的短语相似度计算方法被引量:1
《软件导刊》2017年第4期6-9,共4页沈洁 彭敦陆 
国家自然科学基金项目(61003031);上海市工程中心建设项目(GCZX14014)
随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域...
关键词:领域半结构化文本 公共子串 依存关系 
面向半结构化文本的知识抽取研究被引量:8
《情报理论与实践》2015年第3期101-106,共6页丁玉飞 王曰芬 刘卫江 
国家自然科学基金项目"新研究领域科学文献传播网络生长及对传播效果影响研究"(项目编号:71373124);中央高校基本科研业务费专项资金资助项目"面向科技创新的Web 2.0信息资源深度整合研究"(项目编号:30920130121007)的成果之一
文章在对国内外相关文献进行归纳和梳理的基础上,从半结构化文本知识抽取的载体类型、内容与技术方法3个方面,对其研究现状与进展进行了综合论述,并展望了未来的研究发展趋势。
关键词:知识抽取 半结构化 文本 相关文献 载体类型 发展趋势 国内外 
基于模式匹配的结构化信息抽取被引量:6
《模式识别与人工智能》2014年第8期758-768,共11页邵堃 杨春磊 钱立宾 方帅 
国家自然科学基金项目(No.60975033;60575035;60275022)资助
针对半结构化文本的信息抽取粒度较大,不能对抽取结果进行有效语义分析的问题,面向领域提出一种基于模式匹配的结构化信息二次抽取方法.该方法以Web文档形式呈现的半结构化文本为对象,对粗粒度抽取结果进行领域识别,根据识别结果加载相...
关键词:半结构化文本 模式匹配 结构化信息 粗粒度抽取结果 领域识别 
面向领域的Web文本结构化分析被引量:2
《合肥工业大学学报(自然科学版)》2013年第3期309-314,共6页杨春磊 刘念唐 林雨 邵堃 
国家自然科学基金资助项目(60975033;60575035;60275022)
为了充分利用领域特征进行Web文本的结构化分析,文章提出了一种面向领域的Web文本结构化分析方法。该方法以领域特征为基础,依据半结构化文本的结构特征和Html文本的层次特性构造Html树;利用本体论的相关思想和方法构建领域本体,从Html...
关键词:领域特征 WEB文本 结构化分析 半结构化文本 领域本体 
半结构化文本中的表格识别技术研究被引量:2
《微计算机信息》2008年第18期198-199,291,共3页潘小燕 孙承杰 刘远超 王晓龙 
国家自然科学基金资助项目(60435020)
表格作为网页的一部分,蕴含丰富的信息,因而表格的识别工作已经成为了一个很值得研究的课题。把表格识别看作是一个分类问题,提出了一种新的用最大熵模型来解决这一问题的方法。实验证明,该方法对表格识别的F度量能够达到95.82%。
关键词:信息提取 最大熵模型 表格识别 
基于PATTree的半结构化文本信息抽取范式研究被引量:2
《情报杂志》2007年第7期55-58,共4页曹进军 
天津市"十一五"教育规划项目"本科生教学参考信息管理与服务系统"(编号:G173)研究成果
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。
关键词:PAT Tree 半结构化文本 信息抽取 范式 
基于Boosting的半结构化信息抽取
《北京工业大学学报》2005年第2期199-203,共5页刘椿年 宋霞 
国家自然科学基金资助项目(60173014)北京市自然科学基金资助项目(4022003).
为了对半结构化文本实现自动抽取信息.介绍了一种基于Boosting算法的信息抽取方法,它能够自动对一个训练例生成规则,将该规则应用于正例集并改变正例集权重分布,找到权重最大的正例生成下一条规则.给出了一种能描述不符合英文词法的词...
关键词:BOOSTING算法 抽取规则 半结构化文本 
检索报告 对象比较 聚类工具 使用帮助 返回顶部