主题模型

作品数:1251被引量:5915H指数:32
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:余正涛刘业政李斌徐华严建峰更多>>
相关机构:北京邮电大学武汉大学南京大学浙江大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家社会科学基金中央高校基本科研业务费专项资金教育部人文社会科学研究基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=中文信息学报x
条 记 录,以下是1-10
视图:
排序:
基于BERT嵌入与知识蒸馏的层次化课程主题分析研究
《中文信息学报》2024年第7期84-94,共11页郭振东 林民 李成城 
国家自然科学基金(61806103,61562068);内蒙古自然科学基金(2017MS0607,2021LHMS06010);国家242信息安全专项(2019A114)。
基于变分自编码器的树结构神经主题模型能有效挖掘文本的层次化语义特征,但现有的树结构神经主题模型仅利用了词频等统计特征,忽略了外部先验知识对获取主题的帮助。针对课程主题分析任务,该文融合迁移学习思想,提出了一种基于BERT嵌入...
关键词:树结构神经主题模型 BERT 知识蒸馏 变分自编码器 
融入主题特征的中越跨语言情感分类模型被引量:1
《中文信息学报》2022年第3期36-44,共9页施忆雪 余正涛 相艳 张亚飞 
云南省重大科技专项计划项目(202002AD080001);国家重点研发计划(2018YFC0830105,2018YFC0830100);国家自然科学基金(61762056,61472168,61972186)。
越南语网络评论的情感分类是越南语事件观点分析的基础。越南语资源匮乏,标注困难,可借助中文标注语料进行跨语言情感分类,实现越南语评论的情感极性预测。但现有的跨语言情感分类模型忽略了主题信息对加强情感表征学习、减小语言差异...
关键词:跨语言情感分析 主题模型 社交媒体评论 对抗学习 
基于神经自回归分布估计的涉案新闻主题模型构建方法被引量:3
《中文信息学报》2021年第2期89-98,共10页毛存礼 梁昊远 余正涛 郭军军 黄于欣 高盛祥 
国家重点研发计划(2018YFC0830105,2018YFC0830101,2018YFC0830100);云南省应用基础研究计划重点项目(2019FA023);云南省中青年学术和技术带头人后备人才项目(2019HB006);云南省高新技术产业专项(201606);云南省重大科技专项计划项目(202002AD080001)。
神经主题模型能有效获取文本的深层语义特征,但现有的神经主题模型忽略了外部知识对获取主题分布的帮助。因此,针对涉案主题分析任务,该文提出了一种基于神经自回归分布估计的涉案新闻主题模型构建方法。以案件要素作为外部知识对iDocNA...
关键词:案件要素 iDocNADEe 注意力机制 神经自回归分布估计 涉案新闻 主题模型 
基于命名实体敏感的分层新闻故事线生成方法被引量:4
《中文信息学报》2021年第1期113-124,共12页樊笑冰 饶元 王硕 李睿祥 刘旭辉 
2019年深圳市科技创新项目(JCYJ20180306170836595);国家自然科学基金(F020807);教育部“云数融合”基金项目(2017B00030);中央高校基本科研业务(ZDYF2017006);2018年中央高校建设世界一流大学(学科)和特色发展引导专项资金(PY3A022);2018年西安市碑林区科技项目(GX1803);2019年教育部社科重大项目(18JZD022)。
社会网络中海量、无序且碎片化的新闻数据,使得人们无法从细粒度感知新闻事件,更无法多视角把握事件发展脉络。为了解决这个问题,该文提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下,充分利用新闻信息构造层次化、多...
关键词:事件演变 故事线 聚类 主题模型 社区发现 
融合主题模型及双语词向量的汉缅双语可比文档获取方法被引量:2
《中文信息学报》2021年第1期88-95,共8页李训宇 毛存礼 余正涛 高盛祥 王振晗 张亚飞 
国家自然科学基金(61732005,61662041,61761026,61866019,61972186);国家重点研发计划(2019QY1802,2019QY1801);云南省应用基础研究计划重点项目(2019FA023);云南省中青年学术和技术带头人后备人才项目(2019HB006)。
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分...
关键词:主题模型 双语词向量 文档相似度 汉语—缅甸语 双语可比文档 
《文本数据挖掘》被引量:2
《中文信息学报》2020年第12期F0003-F0003,共1页宗成庆 夏睿 张家俊 
文本数据挖掘是通过机器学习、自然语言处理和推理分析等方法,根据文本内容完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。随着互联网和移动通信技术的快速发展和普及应用,这项技术已在众多领域得到...
关键词:文本数据挖掘 科研技术人员 信息处理技术 信息抽取 自然语言处理 主题模型 机器学习 推理分析 
面向中朝跨语言文本分类的双语主题词嵌入模型的研究被引量:5
《中文信息学报》2020年第12期39-47,共9页王琪 田明杰 崔荣一 赵亚慧 
国家语委“十三五”科研规划项目(YB135-76);延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)。
针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将...
关键词:跨语言文本分类 双语词嵌入模型 主题模型 一词多义 
多原型词向量与文本主题联合学习模型被引量:5
《中文信息学报》2020年第3期64-71,106,共9页曹中华 夏家莉 彭文忠 张志斌 
国家自然科学基金(41661083)。
常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入...
关键词:多原型词向量 多义词 主题模型 神经网络 
基于神经主题模型的对话情感分析被引量:9
《中文信息学报》2020年第1期106-112,共7页王建成 徐扬 刘启元 吴良庆 李寿山 
国家自然科学基金(61672366)。
对话情感分析旨在识别出一段对话中每个句子的情感倾向,其在电商客服数据分析中发挥着关键作用。不同于对单个句子的情感分析,对话中句子的情感倾向依赖于其在对话中的上下文。目前已有的方法主要采用循环神经网络和注意力机制建模句子...
关键词:对话 情感分析 主题模型 
EntropyRank:基于主题熵的关键短语提取算法被引量:1
《中文信息学报》2019年第11期107-114,共8页尹红 陈雁 李平 
国家自然科学青年基金(61503312)
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题...
关键词:关键短语提取 随机游走 主题模型 词语影响力 
检索报告 对象比较 聚类工具 使用帮助 返回顶部