检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:石崇德[1] 乔晓东[1] 王惠临[1] 屈鹏[1]
机构地区:[1]中国科学技术信息研究所
出 处:《图书情报工作》2014年第19期13-18,共6页Library and Information Service
基 金:科技部国际科技合作专项"面向科技文献的日汉双向实用型机器翻译合作研究"(项目编号:2014DFA11350);国家社会科学基金项目"基于事实型科技大数据的情报分析方法及集成分析平台研究"(项目编号:14BTQ038)研究成果之一
摘 要:以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果。研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用。Segmentation of science and technology(S&T) literature is a basic step in S&T documents information processing. This paper takes biomedical literatures as the instances and studies domain adaptation technology in segmentation of S&T literatures. Then it takes some methods such as dictionary features, domain character features, sub-word tagging and low quality in-domain training corpus based on dictionary-based segmentation to adapt Chinese segmentation method based on sequence labeling in journalism filed to S&T filed and achieves the significant improvement. It finds that how to exploit domain specific features with domain knowledge plays an important role in improving the segmentation quality of S&T literatures.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.219.89.207