文本预处理

作品数:61被引量:360H指数:9
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:张春霞李传艺骆斌高岭秦永彬更多>>
相关机构:电子科技大学华南理工大学国家电网有限公司浙江大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金安徽省教育厅科学研究项目博士科研启动基金国家电网公司科技项目更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
京东手机用户评论的情感分析及聚类分析
《现代计算机》2024年第21期141-145,共5页苏舒菲 蔺聪 
广东省普通高校特色创新项目(自然科学)(2022KTSCX041);广州市海珠区科技计划项目(海科工商信计2022-45);2022年度广东财经大学一流本科教学质量与教学改革工程项目(粤财大[2022]132号):面向互联网+的《非结构化数据挖掘》混合式教学改革探索;2024年广东财经大学统计与数学学院课程建设项目(培育项目):《非结构化数据挖掘》案例建设。
为了帮助商家了解消费者对商品的需求偏好以及消费者群体构成,构建了基于词典划分的情感分析和K-means聚类来识别在线评论中产品需求偏好以及客户群组模型。通过爬取京东平台华为Mate60系列手机在线评论并对其进行处理;采用LDA主题模型...
关键词:在线评论 情感分析 K-MEANS聚类 主题挖掘 文本预处理 
基于Softmax回归分类模型的网页搜索排序算法被引量:1
《吉林大学学报(信息科学版)》2024年第5期985-990,共6页党米花 
西安交通工程学院校级中青年基金资助项目(2023KY-17)。
针对网页搜索结果存在返回的网页与搜索的关键词领域不相关的领域漂移现象,导致用户无法搜索到需求信息的问题,提出基于Softmax回归分类模型的网页搜索排序算法。选择网页搜索文本特征,得到相应的特征项,利用向量表示模型,将选择的网页...
关键词:Softmax回归分类模型 网页搜索排序 文本预处理 TF-IDF算法 Okapi BM25算法 
考虑特征稀疏特性的短文本命名实体快速识别方法
《吉林大学学报(工学版)》2023年第12期3529-3535,共7页马月坤 郝益锋 
中央高校基本科研业务费项目(FRF-DF-20-04);河北省三三三人才项目(A201803083)。
首先,通过过滤标点符号选择适当的特征,并构建向量,分割两个及两个以上词语组成特定语义,标注词性,找出相对词类。其次,利用潜在狄利克雷分配(LDA)模型令话题与文档间存在相关性,明确文档主题,降低数据特征稀疏特性。再次,本文双向长短...
关键词:自然语言处理 特征稀疏特性 短文本命名 短文本实体快速识别 文本预处理 特性权重 
轻量级词典协同记忆聚焦处理的Web攻击检测研究被引量:1
《重庆理工大学学报(自然科学)》2023年第3期172-182,共11页刘拥民 黄浩 石婷婷 欧阳金怡 刘翰林 谢铁强 
国家自然科学基金项目(31870532);湖南省自然科学基金项目(2021JJ31163);湖南省教育科学“十三五”规划基金项目(XJK20BGD048);湖南省教育厅科研项目(18C0679)。
使用深度学习模型检测Web攻击,输入完整的HTTP文本会使词典增大,进而导致模型参数过载,增加存储成本。此外,攻击载荷的位置不确定性及语义复杂性会导致漏报率高。针对模型参数过载和漏报攻击载荷问题,提出了一种基于轻量级词典协同记忆...
关键词:Web攻击检测 文本预处理 多头注意力机制 聚焦处理 
基于LDA的中小企业科技需求关键信息提取方法
《电脑知识与技术》2023年第2期16-19,共4页张震 
基于深度学习的企业科技需求分析及协同创新服务平台设计,河南省高等学校重点科研项目计划项目(22B520007);人工智能背景下Python程序设计课程教学范式改革研究,河南工业贸易职业学院2021年高等职业教育教学改革研究与实践项目(JG-2021009)。
文章面向协同创新模式下中小企业科技需求关键词的提取技术,以企业科技需求文本为基础,对文本进行预处理,并使用改进的潜在狄利克雷分配模型提取关键词,最后通过实际案例场景来验证方法的可行性和有效性。实验结果表明,该算法提取的关...
关键词:LDA主题模型 文本预处理 关键词提取技术 企业科技需求 
面向检索服务的词干提取与相关排序优化研究
《桂林电子科技大学学报》2022年第5期354-365,共12页朱艳 张敬伟 杨青 胡晓丽 单美静 
国家自然科学基金(61862013,U1811264,U1711263);广西自然科学基金(2020GXNSFAA159117,2018GXNS FAA281199);广西可信软件重点实验室重点基金(KX202052);广西自动检测技术与仪器重点实验室主任基金(YQ21102)。
新一代信息技术的兴起以及互联网产业的飞速发展使得数据量呈爆炸式增长。为满足数十亿用户从海量数据中快速获取有效信息的需求,提升搜索引擎的检索质量以及查询效率具有重要意义,同时也面临挑战。一方面,用户的查询词日益复杂,语言词...
关键词:词干提取算法 随时排序算法 文本预处理 SAAT 相关排序 
面向标准文本的词性标注集设计
《信息技术与标准化》2022年第10期36-42,共7页马小雯 袁满 刘彦林 李臻 李慧杰 
围绕标准文本的词性标注,针对通用词性标注集对标准文本标注不适配的问题,基于词性标注任务研究现状,提出一种针对标准文本特点的词性标注集,去除标准语境下不常用的词性类别,新增专有名词的相关设计。该设计目前应用于标准文本内容理...
关键词:标准文本 词性标注 文本预处理 
基于NLP的政企类文本智能分类的实现与应用
《电子技术与软件工程》2022年第16期253-258,共6页胡文烨 郭文涛 李振业 许鸿奎 
山东省重大科技创新工程(No.2019JZZY010120);山东省重点研发计划(No.2019GSF111054)。
本文基于深度学习框架及自然语言处理,将政企类文本智能分类过程中的文本预处理、模型构建、分类效果比较等环节进行了实现与分析。自然语言处理是文本分类的有效手段,在所有的文本分类语境中,政企类文本因其文本较长、类别较多、文本...
关键词:深度学习 文本预处理 BERT 文本分类 预训练模型 
阿拉伯文文本预处理方法研究综述
《情报探索》2021年第7期122-128,共7页罗姝匀 于娟 
国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)成果。
[目的/意义]旨在促进阿拉伯文文本挖掘的研究与应用,为其他学者提供参考。[方法/过程]概述阿拉伯文的基本特征与语法规则,从分词、词性标注、词干提取、词形还原四个方面对比分析阿拉伯文文本预处理方法及主流应用,并指出现有研究的不...
关键词:阿拉伯文 文本预处理 阿拉伯文分词 词性标注 词干提取 词形还原 
基于词项和语义融合的地铁信号设备故障文本预处理被引量:12
《铁道学报》2021年第2期78-85,共8页胡小溪 牛儒 唐涛 
国家自然科学基金(U1934219);北京市自然科学基金(L181006);中国国家铁路集团有限公司科技研究开发计划(N2020G019);城市轨道交通北京实验室资助。
数据预处理是数据驱动故障诊断的前提,为了更好地提取数据特征,针对地铁信号设备的故障记录提出一种基于词项和语义融合的文本自动预处理方法。采用隐式马尔可夫链识别特定线路的信号专有词汇,结合既有词库形成特定线路信号专用词库,解...
关键词:文本预处理 地铁信号 HMM K-MEANS LDA 
检索报告 对象比较 聚类工具 使用帮助 返回顶部