检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王宁[1] 葛瑞芳[1] 苑春法[1] 黄锦辉[2] 李文捷[3]
机构地区:[1]清华大学计算机科学与技术系 [2]香港中文大学系统工程与工程管理系 [3]香港理工大学电子计算学系
出 处:《中文信息学报》2002年第2期1-6,共6页Journal of Chinese Information Processing
基 金:国家自然科学基金(6 9975 0 0 8);国家重点基础研究 973(G19980 30 5 0 7)项目支持
摘 要:在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别公司名的知识库 ,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明 ,在封闭测试中实验系统公司名识别的精确率可以达到 97 3% ,召回率可达 89 3% ;在开放测试中精确率可以达到 6 2 8% ,召回率可达 6 2 1%。Identifying company names in running texts plays a significant role in financial information extraction.Based on the thoroughly investigations of financial articles,the relevant structural features and contextual constraints were obtained.In this paper,a company name identification system is proposed,which is built on the six knowledge bases and a twice scan method.The experiment achieved 97 3% precision and 89 3% recall respectively by close test,and 62 8% precision and 62 1% recall respectively by open test.
关 键 词:公司名 金融领域 专名识别 信息抽取 金融新闻 中文识别 识别策略
分 类 号:TP391.43[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.104