检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:聂磊 何杨煜琪 王继民[3] 王若佳 Nie Lei
机构地区:[1]北京外国语大学,北京100089 [2]对外经济贸易大学,北京100029 [3]北京大学,北京100871 [4]北京中医药大学,北京100105
出 处:《情报理论与实践》2023年第6期161-167,154,共8页Information Studies:Theory & Application
基 金:国家社会科学基金青年项目“面向多语种社会科学数据的线索发现方法研究”的成果,项目编号:22CTQ025。
摘 要:[目的/意义]从研究成果中抽取数据线索,进而构建针对特定主题的数据索引,有助于提升研究者查找数据的全面性。[方法/过程]以社会科学领域所有学科中文核心期刊中关于“COVID-19”论文的题录信息为例,分三步进行了探索。(1)随机抽取1000篇摘要进行人工标注,然后以此为基础使用自适应增强等模型训练分类器,进而使用分类器识别出使用了数据的论文。(2)从使用数据的论文摘要中标注出数据线索实体,进而使用隐马尔可夫、长短期记忆网络等模型进行实体识别。(3)使用Neo4j数据库,基于抽取出的数据线索与题录中的其他信息构建知识图谱。[结果/结论]在判断论文是否使用了数据的任务中,自适应增强模型的F1值最高,达到0.869。在数据线索实体识别任务中,隐马尔可夫模型的F1值最高,达到0.805。由抽取出的数据线索与论文关键词、作者、期刊等信息融合构建的知识图谱能够实现基于主题词查找数据线索、基于数据线索查找其他信息等应用。[Purpose/significance]Extracting data clues from research papers and then building data indexes for specific topics will help improve the comprehensiveness of researchers’data search.[Method/process]Based on the bibliographic information of papers on“COVID-19”in Chinese core journals of all disciplines in the social sciences,this study explored in three steps.①Randomly select 1000 abstracts for manual annotation,and then use Adaboost and other models to train the classifier.②Use the classifier trained in the first step to classify all abstracts,and then mark the data clue entities in the abstracts of the papers classified as using data,and then use models such as HMM,LSTM for data-clue entity recognition.③Use the Neo4j database to construct a knowledge graph based on the extracted data clues and other information in the bibliography.[Result/conclusion]In the task of judging whether the paper uses data,the F1 value of Adaboost model is the highest,reaching 0.869.In the data-clue entity recognition task,the HMM has the highest F1 value,reaching 0.805.The knowledge graph constructed by the fusion of extracted data clues and paper keywords,authors,journals and other information can realize applications such as searching for data clues based on keywords,and searching for other information based on data clues.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229