面向医学科技文献分类的语义特征增强研究  

Study on Semantic Feature Enhancement for Medical Literature Classification

在线阅读下载全文

作  者:宫小翠 安新颖[1] GONG Xiaocui;AN Xinying(Institute of Medical Information,Chinese Academy of Medical Sciences&Peking Union Medical College,Beijing 100020,China)

机构地区:[1]中国医学科学院/北京协和医学院医学信息研究所,北京100020

出  处:《医学信息学杂志》2025年第3期36-41,67,共7页Journal of Medical Informatics

基  金:中国医学科学院/北京协和医学院医学信息研究所/图书馆青年人才培养专项(项目编号:2024YT14)。

摘  要:目的/意义构建大批量医学科技文献自动分类方法,以应对医学科技文献快速增长给文献分类和利用带来的新挑战。方法/过程以医学论文为研究对象,利用《医学主题词表》同义词和语义层级结构,增强概念信息的语义特征,采用双向编码器表征模型进行微调训练和测试评估,并与随机森林算法的分类结果进行对比。结果/结论十折交叉验证结果显示,该分类方法精确率、召回率、F1值分别达到95.42%、93.61%、94.47%,优于随机森林算法及其他未进行特征增强的方法,其准确、有效,具有可应用性。Purpose/Significance To build an effective automatic classification method for a large number of medical literatures,so as to cope with the new challenges brought by the rapid growth of medical literatures for their classification and utilization.Method/Process Taking medical literatures as data source,the study utilizes the synonyms and hierarchical structure of the medical subject headings(MeSH)to enhance the semantic features of concept information,uses bidirectional encoder representations from transformers(BERT)for fine-tuning and testing,and compares the classification results with random forest(RF).Result/Conclusion The results of the ten-fold cross-validation method show that the precision,recall and F 1 score of this medical literature classification method are 95.42%,93.61%,94.47%,which are better than the classification results of RF and other methods without feature enhancement,and show accuracy,effectiveness and applicability.

关 键 词:医学科技文献 《医学主题词表》 双向编码器表征 自动分类 

分 类 号:R-058[医药卫生]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象