短语抽取

作品数:21被引量:66H指数:4
导出分析报告
相关领域:自动化与计算机技术语言文字更多>>
相关作者:诺明花任高举林伟佳梁华参张立强更多>>
相关机构:中国科学院新疆大学中国科学院软件研究所昆明理工大学更多>>
相关期刊:《计算机工程与设计》《哈尔滨工业大学学报》《计算机与现代化》《山东大学学报(理学版)》更多>>
相关基金:国家自然科学基金北京市自然科学基金国家社会科学基金中国科学院西部行动计划项目更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于预训练模型软提示微调的无监督短语抽取方法
《微电子学与计算机》2025年第1期17-25,共9页龙彪 线岩团 郭军军 黄于欣 
国家自然科学基金(62266028);云南重大科技专项(202202AD080003)。
关键短语是文章中含有重要信息的词语或短语,能够概括文章的主题和主要内容。关键短语抽取则是信息检索和文本搜索领域的重要任务。目前主流的短语抽取方法是多段式的,其中第一阶段的候选短语选取对结果有较大的影响。由于预训练语言模...
关键词:短语抽取 软提示微调 一步式 信息分数差 
多特征融合的专利功效短语抽取
《计算机工程与设计》2024年第5期1413-1419,共7页游新冬 赵颖 刘佳琦 吕学强 
国家自然科学基金项目(62171043);北京市自然科学基金项目(4212020);国家语委基金项目(ZDI145-10、YB145-3);国防科技重点实验室基金项目(6412006200404);北京市教育委员会科学研究计划基金项目(KM202111232001)。
为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到B...
关键词:多特征融合 专利功效短语 深度学习 词语抽取 双向长短期记忆模型 条件随机场模型 词向量模型 
基于语步识别的科技文献结构化自动综合工具构建被引量:2
《数据分析与知识发现》2024年第2期65-73,共9页刘熠 张智雄 王宇飞 李雪思 
中国科学院特别研究助理资助项目(项目编号:E1290905);国家科技图书文献中心(NSTL)专项(项目编号:2022XM28)的研究成果之一。
【目的】借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点。【方法】提出了一种基于语步识别的科技文献结构化自动综合工具...
关键词:科技文献 语步识别 结构化自动综合 短语抽取 层次聚类 类簇标签生成 
结合统计特征和图模型的半监督式中文关键短语抽取方法被引量:2
《中文信息学报》2022年第4期57-65,共9页谢海华 陈雪飞 都仪敏 吕肖庆 汤帜 
国家重点研发计划(2019YFB1406302);国家自然科学基金(61472014,61573028,61432020);北京市自然科学基金(4142023,L192024);北京新星计划项目(XX2015B010)。
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型...
关键词:中文关键短语抽取 半监督式方法 图模型 统计特征 
基于SL-LDA的领域标签获取方法被引量:2
《计算机科学》2020年第11期95-100,共6页王胜 张仰森 张雯 蒋玉茹 张睿 
国家自然科学基金项目(61772081,61602044);科技创新服务能力建设-科研基地建设-北京实验室-国家经济安全预警工程北京实验室项目(PXM2018_014224_000010)。
科学技术的发展为文献及学者的管理提出了新的挑战,为解决海量科技文献及学者的自动管理,文中提出了一种基于SL-LDA的领域标签获取方法。在海量科技文献的基础上,分析科技文献数据的分布特点,通过引入科技文献的词频特征构建了SL-LDA主...
关键词:领域标签 SL-LDA模型 标签映射 主题短语抽取 科技文献 
基于信息抽取的项目记忆获取方法研究被引量:1
《情报理论与实践》2020年第8期167-172,共6页徐进 朱孝文 
国家自然科学基金项目“项目知识情境提取与展现方法研究:基于主题模型和知识地图的大数据视角”(项目编号:71472158);国家自然科学基金项目“面向大数据的商务分析与计算方法以及支撑平台研究”(项目编号:71490725);西南交通大学“双一流”建设项目(交通软科学类,项目编号:JDSYLYB2018021)的研究成果。
[目的/意义]项目记忆是项目进行过程中产生和应用的项目知识和信息的集合。传统获取、构建项目记忆的方式依赖人工处理,需要投入大量的人力和时间。如何表示项目记忆,以及如何利用非结构化项目文档这类重要的项目数据源来构建项目记忆,...
关键词:项目记忆 记忆获取 信息抽取 短语抽取 主题建模 
一种专利与企业相关性测度方法被引量:1
《情报学报》2019年第12期1268-1274,共7页高影繁 王峥 胡小荣 姚长青 梁娜 
中国科学技术信息研究所重点工作项目“上市公司年报数据库建设及服务系统研发”(ZD2019-09)
随着我国企业每年专利申请量的不断增多,一些专利申请乱象日渐显现:国家为专利申请制定了扶持与鼓励政策,有的企业为了争取这些政策奖励而胡乱申报或购买对于企业发展与利润提升无积极影响、且与企业主营产品无关的专利。在这种背景下,...
关键词:专利与企业相关性 短语抽取 词向量过滤 标引词权重 
面向专利的主题短语提取被引量:5
《计算机工程与设计》2019年第5期1365-1369,1382,共6页马建红 姬帅 刘硕 
在中文专利主题挖掘研究中,针对基于单词的传统主题模型结果可解释性较差问题,提出一种融合词向量和Generalized Pólya urn (GPU)的改进模型GW_PhraseLDA。根据专利文本特点,使用BLSTM-CRF模型进行专利短语抽取,利用训练好的词向量生...
关键词:专利挖掘 短语抽取 双向长短时记忆网络 条件随机场 主题模型 
法语名词短语的最小子结构研究被引量:1
《中国外语》2017年第6期43-48,共6页陈建伟 
2013年度教育部人文社会科学规划基金项目"基于词汇有向树形图的法汉机器翻译最简方案"(13YJA740003)的阶段性成果
任何语言的句子结构都无法穷尽,而句子中短语结构的组合规则却可以穷尽。在句子的各类短语中,名词短语所占的比例最高,承载的信息量也最多。名词短语的数量无法穷尽,但其组合规则却是有限的,尤其是句法结构甚为严谨的法语,可以枚举名词...
关键词:法语名词短语 最小子结构 最长名词短语抽取 
利用GATE的XML配置文件实现病历短语抽取的机器学习方法被引量:1
《中国医疗设备》2017年第7期124-125,133,共3页倪晓华 
本文利用文本工程通用框架软件的XML配置文件,来指定所学文档使用的特征参数、学习算法,实现文本病历医学短语抽取的机器学习。结果计算机能很方便的在大段病程资料中快速自动获取医生所需的医学短语信息。本学习算法具有较好的实用性,...
关键词:电子病历 机器学习 通用框架软件 支持向量机 
检索报告 对象比较 聚类工具 使用帮助 返回顶部