基于隐含空间模型降维和LDA模型的学科主题识别研究  被引量:1

Research on Subject Topic Recognition Based on Hidden Space Model Dimensionality Reduction and LDA Model

在线阅读下载全文

作  者:王婧[1] 武帅 Wang Jing;Wu Shuai(School of Cultural Heritage and Information Management,Shanghai University,Shanghai 201900;College of Information Management,Nanjing Agricultural University,Nanjing Jiangsu 210003)

机构地区:[1]上海大学文化遗产与信息管理学院,上海200444 [2]南京农业大学信息管理学院,江苏南京210003

出  处:《情报探索》2024年第2期1-11,共11页Information Research

基  金:贵州省科技计划项目“基于大数据及图像识别的水族文献及濒危水书抢救性整理研究”(项目编号:[2020]1Y279);贵州财经大学2021年度校级项目“AI大数据赋能的贵州濒危水书和水族古籍识别与抢救研究”(项目编号:2021KYQN03)成果之一。

摘  要:【目的/意义】现有学科研究主题的梳理多为领域专家的定性分析和学科学者的文献梳理,一定程度会由于研究思维的局限性和获取知识的片面性造成学科研究主题误判,为有效避免漏判误判现象的发生,提出识别模型。【方法/过程】首先,运用传统LDA模型分析主题特征词;其次,结合上下文语义信息进行中文分词,形成学科主题词库;最后,结合隐含位置聚类算法发现潜在社区,提高主题识别效果。【结果/结论】提出的方法一定程度上优化了主题挖掘算法在识别短文本主题的效果,消除主观意愿。由计算机自行分类并实现科学研究前沿主题的预测,揭示前沿领域的研究热点,为致力于研究前沿学科的新兴学者提供参考价值。[Purpose/significance]The existing combing of subject research topics are mostly qualitative analysis by domain experts and literature review by subject scholars.To a certain extent,the limitations of research thinking and the one-sidedness of knowledge acquisition may lead to the misjudgment of subject research topics.In order to effectively avoid the occurrence of misjudgment,this paper proposes an identification model.[Method/process]Firstly,traditional LDA model is used to analyze thematic feature words.Secondly,by combining contextual semantic information for word segmentation,a subject topic thesaurus is formed.Finally,the hidden location clustering algorithm is combined to discover potential communities and improve the effectiveness of topic recognition.[Result/conclusion]The method proposed optimizes the effectiveness of topic mining algorithms in identifying short text topics and eliminates subjective intention to some extent.Classifying and predicting cutting-edge scientific research topics by computer,reveals research hot spots in cutting-edge fields,and provides reference value for emerging scholars committed to researching cutting-edge disciplines.

关 键 词:学科主题识别 LDA主题挖掘 图书情报与档案管理学科词库 隐含位置聚类模型 共词网络 

分 类 号:G202[文化科学—传播学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象