面向藏文临床病历的医学实体识别研究  

Research on Medical Entity Recognition for Tibetan Clinical Medical Records

在线阅读下载全文

作  者:卓玛措 桑杰端珠 才让加 羊毛卓么 ZHUO Ma-cuo;SANGJIE Duan-zhu;CAI Rang-jia;YANGMAO Zhuo-ma(State Key Laboratory of Tibetan Intelligent Information Processing and Application,Xining Qinghai 810008,China)

机构地区:[1]省部共建藏语智能信息处理及应用国家重点实验室,青海西宁810008

出  处:《计算机仿真》2023年第9期208-212,共5页Computer Simulation

基  金:国家自然科学基金项目(61662061,61063033);青海省藏文信息处理与机器翻译重点实验室(2020-ZJ-Y05);2020年校级自然科学中青年科研基金项目(2020QZR017)。

摘  要:由于标注数据集的缺乏,针对藏族传统医学领域的藏文临床病历的医学实体识别任务仍然是一个未涉足的研究领域。针对上述问题,首先手动构建了一个标记的数据集,然后根据藏文临床病历文本独有的子语言特征,设计了一个音节级的Lattice-LSTM-CRF神经网络架构,利用深度学习方法对上述领域进行了研究。为了进一步提高模型的性能,将音节级别和单词级别的预训练表示结合在一起。使用的模型在实验室构建的测试集上的正确率达到91.89%、召回率达到93.15%和F1值达到92.52%,表明所使用的模型是有效的。Due to the scarcity of labeled datasets,the Medical Entity Recognition task in the domain of Tibetan Traditional Medicine clinical medical records is still an unvisited researching area.In this work,we firstly manually constructed a labeled dataset for this task and then designed a syllable Lattice-LSTM-CRF neural network architecture according to the unique sublingual characteristics of Tibetan clinical medical records.And we explore this area with deep learning.To further improve the model performance,we also incorporate both syllable and word level pretrained representation.The precision,recall rate and F1 values of the model used in the paper are 91.89%,93.15%and 92.52% respectively on lab-built test sets,which indicates that the model used is valid.

关 键 词:藏文 临床病历 藏文音节 医学实体识别 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象