停用词

作品数:33被引量:307H指数:10
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:张引夏睿陈雪郭伟汪友生更多>>
相关机构:平安科技(深圳)有限公司北京工业大学浙江工业大学中山大学更多>>
相关期刊:《太赫兹科学与电子信息学报》《软件工程》《情报科学》《中国索引》更多>>
相关基金:国家自然科学基金国家社会科学基金教育部人文社会科学研究基金中国地震局地震科技星火计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于超平面-BERT-Louvain优化LDA模型的书法作品价值要素提取及指标体系构建被引量:1
《数据分析与知识发现》2023年第10期109-118,共10页潘小宇 倪渊 金春华 张健 
国家重点研发计划青年科学家项目(项目编号:2021YFF0900200)的研究成果之一。
【目的】针对书法作品价值评估分歧大、标准缺失的难题,借助大数据与人工智能方法高效、准确地识别书法作品价值要素,为各种书法作品交易活动提供技术支撑。【方法】首先,融合超平面算法和BERT模型对书法文献进行停用词剔除与语义扩充,...
关键词:价值评估指标体系 LDA 领域停用词 Louvain BERT 
改进的贝叶斯算法在商品分类中的应用研究被引量:1
《软件工程》2021年第7期28-30,27,共4页邵欣欣 
辽宁省自然科学基金(2019-ZD-0354).
针对采用贝叶斯分类器算法进行商品描述分类时,出现大量混淆性词汇从而无法保证特征间独立的问题,提出了采用停用词优化的贝叶斯分类器算法,通过词频统计和词性筛选的方式,过滤掉大部分混淆性词汇,从而保证特征独立。针对相似类别无法...
关键词:朴素贝叶斯分类器 停用词 子模型训练 商品分类 
基于jieba中文分词的中文文本语料预处理模块实现被引量:39
《电脑知识与技术》2020年第14期248-251,257,共5页石凤贵 
安徽省教育厅科学研究项目资助(KJ2017A852)。
文本预处理是文本分析理解的基础,预处理结果可以直接影响到文本分析的准确率。中文文本语句结构复杂,词语之间没有明显的分隔标记,需要进行分词来理解语句。分词是文本预处理的基础,词的切分准确性影响文本预处理结果。本文分词采用ji...
关键词:文本分词 文本预处理 去停用词 
基于FastText的新闻文本多分类研究被引量:5
《软件导刊》2020年第3期44-47,共4页张超超 卢新明 
国家重点研发计划项目(2017YFC0804406);山东省重点研发计划项目(2016ZDJS02A05)。
在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型...
关键词:文本分类 词向量 FastText 停用词 噪声数据 
一种针对中国移动客服文本的分词方法
《现代信息科技》2020年第1期7-8,11,共3页钟建 高海洋 
为提升客户服务的效率,快速分析和解决客户问题,并将客户述求和投诉充分转换为中国移动发展的动力和资源;提出了一种针对移动客服聊天记录的数据分词框架,针对客服聊天文本的特点,制定了结合文本纠错、停用词扩充、关键词提取、词性分...
关键词:数据预处理 停用词 关键词 纠错字典 
Twitter情感分析中停用词处理被引量:3
《计算机工程与设计》2019年第11期3180-3185,3191,共7页高巍 孙盼盼 李大舟 
辽宁省教育厅科学技术研究基金项目(L2016011);辽宁省教育厅科学研究基金项目(LQ2017008);辽宁省博士启动基金项目(201601196)
在Twitter情感分析中首先要对数据预处理去除噪声,为了解文本预处理方法中去除停用词对Twitter情感分析分类性能的影响,使用4种特征模型和5种分类器对3个数据集保留和去除停用词分别进行分析,为自然语言处理的研究者提供在常用算法下对T...
关键词:情感分析 预处理 停用词 特征数量 文本分类 
维吾尔语停用词抽取方法研究
《计算机工程》2019年第10期288-292,300,共6页塞麦提·麦麦提敏 司马义·阿不都热依木 
国家社会科学基金(17XYY034);教育部人文社会科学研究青年项目(16XJJC740001)
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进...
关键词:信息检索 停用词 维吾尔语 文本分类 语料统计 
基于辅助集的专利主题分析领域停用词选取被引量:6
《数据分析与知识发现》2018年第11期95-103,共9页俞琰 赵乃瑄 
国家社会科学基金项目"大数据时代支持创新设计的多维度多层次专利文本挖掘研究"(项目编号:17BTQ059)的研究成果之一
[目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]...
关键词:专利主题分析 领域停用词 辅助集 
基于深度学习的科技文献语义分类研究被引量:12
《情报理论与实践》2018年第11期149-154,共6页谢红玲 奉国和 何伟林 
2016年国家社会科学基金项目"基于文本挖掘的科技文献知识发现研究"(项目编号:16BTQ071);2016年华南师范大学研究生创新项目"基于深度学习的科技文献挖掘研究"(项目编号:2016wkxm62)的成果
[目的/意义]科技文献数量增长迅猛,自动文本分类技术可以提高文献分类效率与准确率。深度学习在自然语言语义分析中效果明显,基于深度学习的语义分析可以对科技文献进行有效分类。[方法/过程]为了进行对比实验,分别对科技文献数据做了...
关键词:科技文献 文献分类 深度学习 语义分析 停用词处理 
专利文本主题建模中领域停用词自动选取研究被引量:4
《图书情报工作》2018年第11期120-126,共7页俞琰 赵乃瑄 
教育部人文社科规划项目项目“大数据时代技能知识图谱构建研究”(项目编号:16YJAZH073);国家社会科学基金一般规划项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(项目编号:17BTQ059)研究成果之一
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,...
关键词:专利文本 主题建模 领域停用词 自动选取 
检索报告 对象比较 聚类工具 使用帮助 返回顶部