文本分割

作品数:56被引量:251H指数:9
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:石晶钟茂生吴军刘昕邓吉秋更多>>
相关机构:平安科技(深圳)有限公司武汉大学深圳市腾讯计算机系统有限公司北京百度网讯科技有限公司更多>>
相关期刊:《郑州大学学报(理学版)》《上海交通大学学报》《智能计算机与应用》《中文信息学报》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划教育部“新世纪优秀人才支持计划”更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于语义相似度的应急文本分割方法
《电信快报》2025年第2期20-25,共6页赵福旺 梁铮 杜渂 何之栋 李志渊 符承鹏 陈浩 
上海市“科技创新行动计划”项目(编号:22QB1400200);上海市城市数字化转型专项资金项目(编号:202401074);上海市促进产业高质量发展专项资金项目(编号:2211106);2022年度工业和信息化部大数据产业发展试点示范项目。
在应急领域文本摘要生成和RAG(检索增强生成)任务中,长文本容易超出模型输入限制,影响整体应用表现。然而,简单地对文本进行分割可能破坏语义结构,导致后续处理的准确性和稳定性下降。文章提出一种基于语义相似度的应急文本分割方法,以...
关键词:智慧应急 语义相似度 文本分割 遗传算法 神经网络模型 
一种基于BERT的多级连贯性文本分割方法
《计算机应用与软件》2024年第10期262-268,324,共8页赵怡博 蒋峰 李培峰 
国家自然科学基金面上项目(61772354);国家自然科学基金重点项目(61836007)。
文本分割是自然语言处理(NLP)领域的一项重要任务。现有的工作大多是只关注文章整体信息或只着重于局部文本信息的模型,不能同时兼顾整体和局部的信息,因此,该文提出一种基于BERT的多级连贯性文本分割模型(HAC-BERT)。该模型能够通过对...
关键词:文本分割 自然语言处理 神经网络 BERT 
电力非结构化大文本特征提取研究
《浙江电力》2024年第6期117-124,共8页王家凯 黄佩卓 李勇乐 盛爽 刘洋 郑玲 魏振华 
国家自然科学基金(62373150);国家电网公司大数据中心科技专项资助项目(SGSJ0000YYJS2310054)。
电力大文本中存在大量专业词汇缩写和别名等不规则表达,现有分词工具无法有效识别电气工程领域专业词汇,这对非结构化文本的分析和利用造成很大影响。首先,根据电气工程领域非结构化文本特点,提出一种电气工程领域词汇索引规则,基于该...
关键词:电力大文本 特征提取 BERT 文本分割 联合嵌入 
自然场景中的文本识别研究
《信息记录材料》2023年第12期195-197,共3页双展智 
自然场景中的文本识别一直是计算机视觉和模式识别领域的活跃研究领域。文本识别在广泛的基于视觉的应用场景中扮演着至关重要的角色。随着深度学习技术的兴起和发展,近年来涌现出许多创新性、实用性和高效的方法。本文主要对场景文本...
关键词:文本识别 自然场景 深度学习 文本分割 
可跟踪段落状态的结构化文档协作管理的研究
《福建电脑》2023年第1期66-69,共4页丁旭渊 吕书龙 
针对流式文档在多人协作过程中存在的协同控制与部分文档更新处理管理难的问题,探索新的控制方案十分必要。本文提出了一种以段落为控制节点的分解文档管理方案,对流式文档的控制顺序、段落管理、文本、表格、图像管理提出了具体的管理...
关键词:核查比对 文档处理器 字符串查找 短文本分类 文本分割 
基于图卷积网络的文本分割模型
《计算机应用》2022年第12期3692-3699,共8页杜雨奇 郑津 王杨 黄诚 李平 
国家杰出青年科学基金资助项目(61625204);西南石油大学科研创新能力提升计划“启航”项目(2019QHZ016)。
文本分割的主要任务是将文本按照主题相关的原则划分为若干个相对独立的文本块。针对现有文本分割模型提取文本段落结构信息、语义相关性及上下文交互等细粒度特征的不足,提出了一种基于图卷积网络(GCN)的文本分割模型TS-GCN。首先,基...
关键词:文本分割 图卷积网络 注意力 自然语言处理 深度学习 
基于音节切分的藏文印刷体识别被引量:2
《计算机工程与设计》2022年第9期2594-2600,共7页才让当知 华却才让 黄鹤鸣 
青海省科技计划基金项目(2017-GX-146);国家自然科学基金项目(62066039)。
为解决藏文印刷体标注数据库资源稀少和藏文图像文本分割难度大等问题,提出一种基于音节切分的藏文体印刷体识别方法。以字符面积最小为依据,找到音节分隔符;合并音节分隔符之间的字丁,构成音节;按音节位置进行分割,经实验分割准确率提...
关键词:藏文印刷体识别 音节切分 字丁切分 文本分割 卷积神经网络 
基于多尺度注意力机制的场景文本擦除
《模式识别与人工智能》2022年第7期614-624,共11页何平 张恒 刘成林 
国家自然科学基金项目(No.61936003,61721004)资助。
自然场景文本擦除技术可应用在图像通信中的隐私保护、图像编辑等领域,然而现阶段的场景文本擦除在面对背景复杂、文本尺度变化较大的场景图像时,难以提取鲁棒的文本特征,出现文本检测不全、背景修复不完整等问题.针对上述问题,文中提...
关键词:场景文本擦除 文本分割 注意力机制 多尺度特征 端到端方法 
文本分割技术研究现状与发展趋势
《计算机应用文摘》2022年第13期83-85,共3页刘爽 
文章梳理了国内外文本分割研究现状,介绍了文本分割研究的知识结构和知识特征。文章以中国知网中主题为文本分割的112篇核心期刊文献和WoS核心合集中标题为text segmentation的156篇期刊论文为样本数据进行分析,主要研究方法是社会网络...
关键词:文本分割 UCINET 分析 研究热点 
融合注意力机制与句向量压缩的长文本分类模型被引量:5
《数据分析与知识发现》2022年第6期84-94,共11页叶瀚 孙海春 李欣 焦凯楠 
公安部技术研究计划基金项目(项目编号:2020JSYJC22);中国人民公安大学基本科研业务费基金项目(项目编号:2021JKF215)的研究成果之一。
【目的】针对预训练语言模型输入长度限制的缺点进行优化,提高长文本分类的准确度。【方法】设计依据自然文本中存在的标点符号进行分句并按次序输入预训练语言模型的分类模型;提出句向量平均池化法与注意力机制加权法对分类特征向量进...
关键词:文本分类 预训练语言模型 特征向量 注意力机制 文本分割 
检索报告 对象比较 聚类工具 使用帮助 返回顶部