新词发现

作品数:75被引量:364H指数:11
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:马少平刘奕群张敏吴悦周新宇更多>>
相关机构:北京邮电大学上海智臻智能网络科技股份有限公司深圳市腾讯计算机系统有限公司哈尔滨工业大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金国家科技支撑计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
我国人工智能政策新词发现与演化研究——一个多特征融合的算法被引量:4
《现代情报》2024年第6期18-32,58,共16页刘清民 王芳 黄梅银 
国家社会科学基金重大项目“基于数据共享与知识复用的数字政府智能化治理研究”(项目编号:20ZDA039)。
[目的/意义]作为中文分词的基础研究,新词发现是研究政策创新和扩散的重要技术方法。本文通过改进新词发现算法优化了政策文本分词不准确的问题,并构建词库以支持人工智能政策的演化研究。[方法/过程]提出多特征融合新词发现算法MFF,实...
关键词:新词发现 人工智能 政策分析 政策演化 多特征融合算法 
融合汉字多语义与文本统计特征的中文医学新词发现研究被引量:2
《图书情报工作》2024年第6期119-128,共10页王巍洁 任慧玲 李晓瑛 王勖 张颖 
科技创新2030-“新一代人工智能”重大项目“面向医学人工智能服务的知识体系构建和应用研究”中文医学术语体系构建(项目编号:2020AAA0104901)研究成果之一。
[目的/意义]为提高机器理解医学文本的能力,提高医学自然语言处理等上层任务效果,保障医学知识内容更新及时性、覆盖完整性,提出一种融合汉字多语义信息与文本统计特征的医学新词发现方法。[方法/过程]以规范用词的医学文献摘要数据为...
关键词:医学新词发现 N-GRAM 多语义词向量 关联置信度 左右信息熵 
融合学习扩展的非遗陶瓷工艺领域术语库构建及应用被引量:5
《图书馆论坛》2024年第2期66-78,共13页汪琳 王昊 李晓敏 邓三鸿 
国家自然科学基金项目“关联数据驱动下我国非遗文本的语义解析与人文计算研究”(项目编号:72074108);中央高校基本科研业务费项目“面向人文计算的方志文本的语义分析和知识图谱研究”(项目编号:010814370113)研究成果。
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然...
关键词:非物质文化遗产 领域术语 新词发现 数字人文 
基于信息熵-切分概率模型的新词发现方法
《计算机科学》2023年第7期221-228,共8页祝钰莹 郭燕 万亿兆 田凯 
新词发现是中文自然语言处理的基本任务,对于提升各种下游任务的性能至关重要。文中提出了一种基于信息熵-切分概率模型的新词发现方法,该方法首先基于信息熵从待处理文本中生成候选词集,然后对候选词集进行切分概率计算,从而筛选出真...
关键词:新词发现 信息熵 互信息 Transformer 条件随机场 键值记忆神经网络 
融合新词发现和改进TextRank算法的农业领域关键词提取算法被引量:1
《农业工程》2023年第6期21-25,共5页邸小康 张辉 秦晓婧 齐世杰 王彩虹 程旭 
针对农业领域文本中专业术语类关键词提取困难的问题,提出了一种融合新词发现和改进TextRank算法的农业领域关键词提取方法。该算法利用信息熵对文本中的词进行成词概率计算,以此发现领域专有名词和新词,通过人工审核扩充分词字典;在分...
关键词:提取 新词发现 信息熵 TextRank算法 
基于BERT的开放领域中文新词发现研究被引量:2
《计算机应用与软件》2023年第6期173-180,共8页刘凡平 陈慧 沈振雷 吴业俭 
针对当前新词发现准确率低、可移植性不强和需要大规模语料等问题,提出一种基于BERT的开放领域新词识别方法。利用BERT对句意的较强理解能力,将词语和上下文输入模型,训练词语识别器;将测试文本按字节流进行大小为N的滑动窗口操作形成...
关键词:BERT 新词发现 分类器 
融合多维度特征的特定领域新词发现方法被引量:1
《自动化应用》2023年第8期159-162,共4页常兵 
政务领域新词的出现往往带有时间、空间、地域等行文特点。如何准确识别政务领域文本中的新词是开展政务智能化业务研究的重要任务之一。本文针对政务语料集的特点,提出一种融合多维度特征的特定领域新词发现方法。首先,获取语料集并进...
关键词:特定领域 新词发现 多维度特征 词频统计 
基于新词发现的跨领域中文分词方法被引量:6
《电子与信息学报》2022年第9期3241-3248,共8页张军 赖志鹏 李学 宁更新 杨萃 
国家自然科学基金(61871191);广东省自然科学基金(2020A1515010962);广州市科技计划(202002030251)。
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了...
关键词:中文分词 新词发现 跨领域 向量增强互信息 对抗式训练 
基于BERT模型的涉警舆情语料库系统被引量:1
《信息技术与信息化》2022年第7期132-135,共4页严豫 
针对现有舆情监测系统对于未登录词的钝化问题,构建了一个基于BERT模型(bidirectional encoder representation from transformers,双向transformer的encoder)的半监督自更新的涉警敏感词语料库系统。首先借助训练出的BERT文本分类器进...
关键词:舆情分析 BERT NER 新词发现 半自动 语料库 
针对特定领域的新词发现方法研究被引量:1
《计算机仿真》2022年第6期269-273,335,共6页申兆媛 巢翌 李晓龙 张伟 
如何准确识别文本中的领域新词是保证企事业内数据安全中的一项重要任务,针对特定领域语料的特性,提出一种针对特定领域的新词发现方法。首先预处理语料,其次采用Jieba结合本领域的成词策略分词,N-gram滑动取词得到候选词串,再次利用点...
关键词:新词发现 点互信息 邻接熵 聚类 
检索报告 对象比较 聚类工具 使用帮助 返回顶部