检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:雷恒林 古兰拜尔·吐尔洪 买日旦·吾守尔[1] 曾琪 LEI Henglin;Gulanbaier Tuerhong;Mairidan Wushouer;ZENG Qi(School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China)
机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046
出 处:《计算机工程》2022年第11期89-95,共7页Computer Engineering
基 金:自治区自然科学基金(2021D01C118)。
摘 要:与传统的机器学习方法相比,终身机器学习能够有效利用知识库中积累的知识来提高当前学习任务的学习效果。然而经典的终身主题模型(LTM)在领域选择时缺乏偏向性,且在计算目标词的相似性时不能充分利用目标词的上下文信息。从词语和主题选择的角度提出改进模型HW-LTM,利用Word2vec词向量的余弦相似度和主题之间的Hellinger距离寻找相似度较大的词语和领域,实现在迭代学习中对词语和领域的更优选择和更有效的知识获取,同时通过预加载词向量相似度矩阵的方式解决词向量余弦距离的重复计算问题,利用Hellinger距离计算主题相似度,加快模型收敛速度。在京东商品评论数据集上的实验结果表明,HW-LTM模型表现优于基线主题挖掘模型,相比LTM模型,其topic coherence指标提升48,耗时缩短43.75%。Lifelong machine learning,as opposed to conventional machine learning methods,can effectively use accumulated knowledge in the knowledge base to improve the current learning task performance. The classic Lifelong Topic Model(LTM),however,is unbiased in domain selection and fails to fully utilize the contextual information of the target words when calculating similarity.Therefore,from the standpoint of word and topic selection,this study proposes an improved model,named HW-LTM,that finds words and domains with higher similarity using the cosine similarity of Word2vec word vectors and the Hellinger distance between topics. The improved model achieves better word and domain selection during interactive learning and more effective knowledge acquisition. The problem of repeated calculation of the cosine distance of the word vector is solved by preloading the word vector similarity matrix,and the Hellinger distance is used to calculate the topic similarity,which accelerated the model convergence speed.A comparison study using the JD commodity review dataset reveals that HW-LTM outperforms baseline topic mining models. It not only improves the topic coherence index by 48,but it also reduces time consumption by 43.75% when compared to the LTM model.
关 键 词:终身机器学习 主题模型 Hellinger距离 词向量 领域选择
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.188