中文文本

作品数:737被引量:4133H指数:27
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:刘怀亮张雪英张顺香张仰森张春菊更多>>
相关机构:北京邮电大学华南理工大学清华大学西安电子科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金国家教育部博士点基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 主题=分词x
条 记 录,以下是1-10
视图:
排序:
基于外部知识的中文文本检错
《数字技术与应用》2022年第6期1-4,65,共5页段建勇 李杰东 王昊 
国家自然科学基金项目(61972003);教育部人文社科基金:基于深度学习的汉语文本自动校对方法研究(21YJA740052)。
中文文本检错是一项重要任务,在众多应用场景中都需要对各种场景转化而来的文本进行检错以便后续模型的运用。采用人工方式进行文本检错费时费力、效率低。研究者提出了自动检错的方法,但目前的研究多集中在以语义为基础进行检错,缺少...
关键词:中文文本 中文字符 人工方式 义原 分词 检错 外部知识 应用场景 
基于jieba中文分词的中文文本语料预处理模块实现被引量:39
《电脑知识与技术》2020年第14期248-251,257,共5页石凤贵 
安徽省教育厅科学研究项目资助(KJ2017A852)。
文本预处理是文本分析理解的基础,预处理结果可以直接影响到文本分析的准确率。中文文本语句结构复杂,词语之间没有明显的分隔标记,需要进行分词来理解语句。分词是文本预处理的基础,词的切分准确性影响文本预处理结果。本文分词采用ji...
关键词:文本分词 文本预处理 去停用词 
中文文本分类方法综述被引量:44
《网络与信息安全学报》2019年第5期1-8,共8页于游 付钰 吴晓平 
国家自然科学基金资助项目(No.61672531)~~
如何高效地文本分类是当前研究的一个热点。首先对文本分类概念及流程中的分词、特征提取和文本分类方法等相关技术及研究现状进行了介绍和阐述,然后分析了现有文本分类相关技术面临的挑战,最后对文本分类的发展趋势进行了总结。
关键词:文本分类 分词 特征选择 
朴素贝叶斯方法在中文文本分类中的应用被引量:6
《中国高新科技》2019年第7期57-60,共4页王艺颖 
采用jieba分词库的tf-idf标准进行分词、数据清理、停用词过滤,并利用向量空间模型实现了基于朴素贝叶斯的文本分类模型。
关键词:中文分词 文本分类 朴素贝叶斯 
DMK算法在中文文本聚类中的应用被引量:1
《信息通信》2018年第7期1-4,共4页季圣洁 葛万成 
上海市科学技术委员会科研项目<基于个性化推荐技术的航空移动社区服务模式研究与应用>(项目号:14DZ1101400)
对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原始K-means聚类算法和DMK(Density-based and Max-min-distan...
关键词:K-MEANS DMK算法 文本聚类 分词 文本挖掘 
基于中文文本挖掘的安全预警系统的探索与实现
《电脑迷》2018年第1期211-212,共2页黄思行 丁楠 蔡腊梅 Chen Shuang 
随着社会的发展和互联网的普及,人们的各种压力日益增大,越来越喜欢在各种网络平台上表达自己的心情,那么跟踪其关键词汇并对其进行分析,可以迅速检测并预防潜在的安全隐患。为此,本文研究了一个基于中文文本挖掘的安全预警系统。该系...
关键词:文本挖掘 中文分词 词语聚类 文本评分 程度划分 安全预警 
基于双字耦合度支持向量机模型的中文文本分类技术研究
《机电工程技术》2017年第12期85-87,共3页李锐 
提出基于双字耦合支持向量机方法对电力客服文本进行分类,由于电力客户投诉口语中包含歧义词较多,所以首先对歧义词进行权重计算,再通过支持向量机对结果进行分类模型识别,效果显示分类效果明显高于普通支持向量机。
关键词:双字耦合 分词 支持向量机 
统计模型在中文文本挖掘中的应用被引量:15
《数理统计与管理》2017年第4期609-619,共11页王健 张俊妮 
本文讨论了中文文本挖掘的三个问题:分词、关键词提取和文本分类。对分词问题,介绍了基于层叠隐马尔可夫模型的ICTCLAS分词法,以及将词与词之间的分隔视为缺失数据并用EM算法求解的WDM方法;对关键词提取问题,提出了贝叶斯因子法,并介绍...
关键词:中文分词 关键词提取 文本分类 贝叶斯因子 L1范数惩罚 主题模型 
用AdaBooster算法实现中文文本分类问题
《现代计算机》2016年第20期3-6,共4页火善栋 
文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用AdaBo...
关键词:中文文本分类 ADA Booster算法 中文分词 文档特征向量 
基于AdaBoost-Bayes算法的中文文本分类系统被引量:7
《微电子学与计算机》2016年第6期63-67,共5页徐凯 陈平华 刘双印 
国家自然科学基金(61572144);广东省科技计划项目(2015A030401101);广东省教育部产学研项目(2013B090500127);广东省重大科技项目"科技业务综合管理系统流程再造及功能完善(2012B080500008)
针对中文文本分类准确率低,分类算法低效不稳定问题,提出基于自适应提升朴素贝叶斯算法.该算法采用Naive Bayes和AdaBoost,并且通过优化组合结构,融合两种算法的优点.首先,使用SMEL序列组合成词算法对中文语料进行分词,提取文本特征词汇...
关键词:中文分词 文本分类 ADABOOST BAYES 
检索报告 对象比较 聚类工具 使用帮助 返回顶部