检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王雪颖[1,2] 王昊[1,2] 张紫玄 Wang Xueying;Wang Hao;Zhang Zixuan(School of Information Management, Nanjing University, Nanjing 210023, China;Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210023, China)
机构地区:[1]南京大学信息管理学院,南京210023 [2]江苏省数据工程与知识服务重点实验室(南京大学),南京210023
出 处:《数据分析与知识发现》2018年第5期11-22,共12页Data Analysis and Knowledge Discovery
基 金:江苏省"333工程"项目"面向知识服务的中文本体学习研究"(项目编号:BRA2015401);国家自然科学基金青年项目"面向学术资源的TSD与TDC测度及分析研究"(项目编号:71503121)的研究成果之一
摘 要:【目的】解决汉语文档中连续字符串的语义识别问题。【方法】使用钢铁冶金领域专利文献中已识别语义的部分符号串作为学习语料,利用基础特征、汉字特征、符号串特征进行测试,根据实验结果确定最佳模型。使用最佳模型,对规则未能判别语义的符号串展开测试。【结果】将测试结果与人工判别的真实角色进行比对,发现Y的P值最小为98.15%,最大为99.62%,N的P值最小为96.87%,最大为99.34%;Y的R值最小为96.56%,最大为99.04%,N的R值最小为98.73%,最大为99.67%;Y的F1值最小为97.71%,最大为99.33%;N的F1值最小为97.98%,最大为99.42%,可以看出识别效果较为理想。【局限】受学习语料规模的影响和研究时间的限制,未能将已识别角色的语料加入样本中学习。【结论】该模型在中文专利文献中连续符号串的语义判别方面具有较高的可行性、有效性和可移植性,为英文文献中符号串的语义判别提供思路。[Objective] This paper aims to extract the semantic information from continuous strings in Chinese patent documents in the field of iron and steel metallurgy. [Methods] First, we collected strings with identified the semantics as the learning corpus. Then, we examined the basic features, as well as characteristics of Chinese characters and strings with the corpus to establish the best model. Finally, we used this model to recognize the semantics of other strings. [Results] The proposed model could effectively extract semantics of the continuous strings. [Limitations] We did not include the identified characters to the training corpus. [Conclusions] The new model could identify the semantics of continuous strings in Chinese patent documents, which could be used to study the continuous strings in English literature.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:52.14.236.216