检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张文伟 赵辉[1] ZHANG Wenwei;ZHAO Hui(Institute of science and technology of China,Beijing 100038,China)
出 处:《情报工程》2020年第2期66-77,共12页Technology Intelligence Engineering
基 金:中国科学技术信息研究所创新研究基金MS2020-02。
摘 要:分析文献主题是挖掘科学脉络的基础,目前存在多种提取文献主题的方法,被学者广泛使用的方法是使用概率主题模型抽取文献的主题。使用不同的算法和不同的语料提取出的主题结果也不同,本文通过计算查全率、查准率和定性分析方法分别比较利用了LDA抽取标题、LDA抽取摘要、BTM抽取标题、BTM抽取摘要的主题效果。本文以纳米材料领域数据为例进行分析,实验结果表明使用摘要做语料提取出的主题颗粒度较小且能够反应文献研究内容的细节,LDA算法在提取摘要主题方面优于BTM算法,BTM算法在提取标题主题方面优于LDA算法。Analyzing the subjects of the literature is the foundation for exploring the scientific context. There are several ways to extract the subjects of the literature, the most common way to extract the subjects of the literature is probabilistic topic models. The results of using different algorithms and different corpora to extract the topic are different. This paper compares the subject effects of using LDA and BTM to extract the title and abstract by calculating the recall rate, precision rate, etc. Taking nanomaterials data as an example, the result shows that the topic particle size of abstract corpus extraction is smaller than that of title, which can reflect the specific content of literature research. Compared to the BTM algorithm, the algorithm of LDA is better in extracting an abstract subject. In contrast, the BTM algorithm is prefered than LDA algorithm in extracting the title subject.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.143.203.223