文本相似度

作品数:492被引量:2390H指数:24
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:余正涛龙华张鹏程李艳梅马海群更多>>
相关机构:平安科技(深圳)有限公司深圳市腾讯计算机系统有限公司阿里巴巴集团控股有限公司北京邮电大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家社会科学基金中央高校基本科研业务费专项资金国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机应用研究x
条 记 录,以下是1-10
视图:
排序:
求解最长循环公共子序列问题的两个算法被引量:3
《计算机应用研究》2020年第11期3334-3337,3358,共5页郑子君 王洪 余成 
国家自然科学基金青年项目(11702046);重庆市教委科学研究项目(KJ1600910)。
最长循环公共子序列(LCCS)是两个字符串在所有可能的循环移位操作下能得到的最长公共子序列(LCS)。针对穷举移位量求解LCCS效率过低的问题,设法对候选移位量进行筛选。通过证明循环移位操作对两字符串间LCS长度增量影响的上下限,得到最...
关键词:最长公共子序列 循环字符串 文本相似度 动态规划 
基于学者社交网络的论文与项目关联模型被引量:3
《计算机应用研究》2020年第5期1428-1431,共4页王柳 汤庸 杨佐希 傅城州 毛承洁 毛超丹 
国家自然科学基金资助项目(U1811263,61772211);广东省科技计划项目(2017A040405057,2016B010124008)。
针对学者社交网络的独特用户,提出一种基于学者社交网络的论文与项目数据的协同关联模型。首先采用两步特征选择方法预处理数据,去除无关和冗余特征,得到影响论文与项目关联的有效特征;然后通过文本向量空间模型TVSM(text vector space ...
关键词:社交网络 协同关联模型 特征选择 文本相似度 学者网 
基于WMF_LDA主题模型的文本相似度计算被引量:10
《计算机应用研究》2019年第10期2916-2919,2951,共5页张璐 芦天亮 杜彦辉 
国家重点研发计划重点专项资助项目(2017YFB0802804);国家自然科学基金资助项目(61602489);中国人民公安大学2018年基本科研业务费科研机构项目(2018JKF504)
利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词...
关键词:词语语义 词语合并 词性筛选 文本相似度 
基于文本分析的故障序列模式挖掘算法被引量:2
《计算机应用研究》2019年第9期2643-2646,2685,共5页常文兵 苑星龙 周晟瀚 李磊 
国家自然科学基金资助项目(71501007);航空科学基金资助项目;北航研究生教育发展基金资助项目
针对结构化程度差、表达形式各异的文本数据,提出了一种基于文本信息的故障序列模式挖掘算法,用于发掘故障之间的时序关系。为从文本记录的故障信息中挖掘故障规律,首先将文本信息向量化,对故障文本信息进行相似度衡量,将表达相同意义...
关键词:序列模型 数据挖掘 文本相似度 飞机故障 文本挖掘 
基于SOM聚类的微博话题发现被引量:10
《计算机应用研究》2018年第3期671-674,679,共5页宋莉娜 冯旭鹏 刘利军 黄青松 
国家自然科学基金资助项目(81360230;81560296)
随着微博用户的增多,微博平台的信息更新频繁。针对微博文本的数据稀疏性、新词多、用语不规范等特点,提出了基于SOM聚类的微博话题发现方法。从原始语料中对文本进行预处理,通过词向量模型对短文本进行特征提取,降低了向量维度过高带...
关键词:话题发现 词向量模型 文本相似度 短文本 SOM聚类 
基于词汇语义信息的文本相似度计算被引量:30
《计算机应用研究》2018年第2期391-395,共5页谷重阳 徐浩煜 周晗 张俊杰 
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇...
关键词:文本相似度 词向量 词频—逆文档频率 
基于相对密度的多耦合文本聚类算法被引量:2
《计算机应用研究》2016年第6期1624-1627,共4页王洪佳 邢长征 王星 
国家自然科学基金资助项目(61402212)
针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。在基于相对密度的聚类方法基础上,该算法根据相对密度越小文本相似性越小这一事实,将相对密度转换为文本相似度...
关键词:文本聚类 空间向量模型 相对密度 文本相似度 核心对象 
一种PST_LDA中文文本相似度计算方法被引量:18
《计算机应用研究》2016年第2期375-377,383,共4页张超 陈利 李琼 
为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LD...
关键词:词性标注 LDA模型 PST_LDA模型 文本相似度计算 
语义分析与词频统计相结合的中文文本相似度量方法研究被引量:42
《计算机应用研究》2012年第3期833-836,共4页华秀丽 朱巧明 李培峰 
国家自然科学基金资助项目(60970056;61070123;61003155);模式识别国家重点实验室开发课题基金资助项目;江苏省自然科学基金资助项目(BK2008160);高等学校博士学科点专项科研基金资助项目(20093201110006)
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需...
关键词:向量空间模型 语义分析 词频 概率分布 文本相似度 
基于VSM的文本相似度计算的研究被引量:101
《计算机应用研究》2008年第11期3256-3258,共3页郭庆琳 李艳梅 唐琦 
国家自然科学基金资助项目(90412010,70572090);NSCF(60573166);华北电力大学博士学位教师科研基金资助项目(H0585)
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词...
关键词:文本相似度 特征选择 词频—逆文档频率法 向量空间模型 
检索报告 对象比较 聚类工具 使用帮助 返回顶部