文本相似度

作品数:492被引量:2390H指数:24
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:余正涛龙华张鹏程李艳梅马海群更多>>
相关机构:平安科技(深圳)有限公司深圳市腾讯计算机系统有限公司阿里巴巴集团控股有限公司北京邮电大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家社会科学基金中央高校基本科研业务费专项资金国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机科学x
条 记 录,以下是1-8
视图:
排序:
基于GPU加速的并行WMD算法被引量:4
《计算机科学》2021年第12期24-28,共5页胡蓉 阳王东 王昊天 罗辉章 李肯立 
国家重点研发计划课题(2018YFB0204302);国家自然科学基金重点项目(92055213);国家自然科学基金项目(61872127,61751204)。
Word Mover’s Distance(WMD)是一种度量文本相似度的方法,它将两个文本之间的差异定义为文本的词嵌入向量之间的最小距离。WMD利用词汇表,将文本表示为归一化的词袋向量。文本的单词在语料中所占的比例很小,因此用词袋模型生成的文本...
关键词:文本相似度 WMD 并行计算 GPU 稀疏矩阵乘法 
基于LDA的多特征融合的短文本相似度计算被引量:9
《计算机科学》2018年第9期266-270,共5页张小川 余林峰 张宜浩 
国家自然科学基金(60443004);重庆市重大科技项目(cstc2013jcsf-jcssX0020);重庆市基础科学与前沿技术研究计划项目(cstc2015jcyjA40041)资助
近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征...
关键词:LDA 主题模型 短文本相似度 主题相似度 词语共现度 
一种基于SA_LDA模型的文本相似度计算方法被引量:4
《计算机科学》2018年第B06期106-109,139,共5页邱先标 陈笑蓉 
国家自然科学基金(61363028)资助
计算文本的相似度是许多文本信息处理技术的基础。然而,常用的基于向量空间模型(VSM)的相似度计算方法存在着高维稀疏和语义敏感度较差等问题,因此相似度计算的效果并不理想。在传统的LDA(Latent Dirichlet Allocation)模型的基础上,针...
关键词:文本相似度 SA_LDA模型 主题模型 文本挖掘 
基于粗糙集理论的中文知识问答的知识谓词分析
《计算机科学》2018年第6期183-186,共4页韩朝 苗夺谦 任福继 
国家自然科学基金项目(61273304;61673301;61573255);高校学校博士学科点专项基金项目(20130072130004)资助
在基于知识的问答系统中,问句中的知识谓词信息分析结果将会对知识元组的整体匹配效果产生影响。中文短问句中的知识谓词的信息表达方式存在着不确定性,这些不确定性的表达增加了知识谓词分析的难度。从粗糙集理论的角度,提出了一种问...
关键词:粗糙集 问答系统 知识问答 信息检索 短文本相似度 
基于语义词典和词频信息的文本相似度计算被引量:8
《计算机科学》2017年第B11期422-427,共6页董苑 钱丽萍 
为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩展相似度,找出文本词语间最大...
关键词:文本挖掘 文本相似度 语义词典 关键词 词频 
基于LDA主题模型的文本相似度计算被引量:99
《计算机科学》2013年第12期229-232,共4页王振振 何明 杜永萍 
国家自然科学基金(60803086);北京市自然科学基金(4123091);北京市教委科研计划(KM20110005013;KM200910005009)资助
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏...
关键词:主题模型 LDA 文本相似度 GIBBS抽样 
MB-SinglePass:基于组合相似度的微博话题检测被引量:24
《计算机科学》2012年第10期198-202,共5页周刚 邹鸿程 熊小兵 黄永忠 
软件开发环境国家重点实验室开放课题(SKLSDE-2011KF-06);国家高技术研究发展(863)计划(2009AA043303)资助
话题检测技术在传统媒体的研究中取得了较好的效果。探讨了针对微博类的新型媒体短文本对象话题检测技术的优化及性能评价。基于微博中联系人存在的关注和粉丝等结构化信息、帖子之间转发评论等内在关联关系,提出了针对微博的MB-SingleP...
关键词:微博 SinglePass 话题检测 文本相似度 同义词扩展 
文本相似度计算的一种新方法被引量:6
《计算机科学》2002年第7期92-93,共2页张焕炯 李玉鉴 钟义信 
国家自然科学基金(项目编号69982001)
1引言 目前信息检索技术已应用于许多领域,尤其广泛应用在Intcrnet网络、图书馆等领域,为快速查阅文本信息提供极大便利.文本信息检索利用文本相似度描述文本与查询式之间的匹配程度.
关键词:INTERNET 文本相似度计算 信息检索 向量空间模型 信息论 
检索报告 对象比较 聚类工具 使用帮助 返回顶部