检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王睿[1] 张洁[1] 张由仪[1] 于禛[1] 姚天昉[1]
机构地区:[1]上海交通大学计算机科学与工程系,上海200030
出 处:《清华大学学报(自然科学版)》2005年第S1期1908-1914,共7页Journal of Tsinghua University(Science and Technology)
摘 要:中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决。解决方案是:利用规则,对机器分词后的文本进行修正;提出“群山”模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等。根据实验结果,得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效。After summarizing and analyzing the state of the art on Chinese name entity extraction, we emphasize that three fundamental problems including word segmentation, domain, and method should be solved. Then we brought forward corresponding solutions: using rules to correct errors in texts after word segmentation; establishing specific rules for different domains based on a new "Mountain Chain" model; and combining statistical with linguistic method for treating different kinds of name entity separately. Accord...
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7