检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]上海交通大学计算机科学与工程系,上海200240
出 处:《计算机工程》2007年第21期199-201,共3页Computer Engineering
基 金:国家"863"计划基金资助项目(2001AA114210-11);国家自然科学基金资助重大项目(60496326)
摘 要:确定实体间的关系有助于理解文本,提高信息检索的正确率。该文研究中文实体关系模板的获取技术,提出了一种STG的bootstrapping训练方法。该方法采用生物信息学中的序列比对技术计算上下文的语义模板,使用一定的评估机制筛选模板,有效地扩充元组以提高下一轮训练的质量。实验结果表明,STG生成的模板不仅能覆盖大量的元组,而且正确率可达99%。Extracting entity relation is benifit to understand the meaning of text, so as to increase correctness of searching. This paper researches on extracting Chinese entity relation templates from text collections, and puts forward a kind of bootstrapping method called STG. This method makes use of sequence matching technique in bioinformatics to generate semantic templates within context of Chinese entities. A new model of evaluation is presented to select better templates while tuples are expanded to obtain high quality in the next iteration of training. Experimental results show that the templates created by STG not only can cover a large number of tuples, but also can reach 99% accuracy.
关 键 词:信息提取 机器学习 BOOTSTRAPPING
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145