检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]汕头大学计算机科学研究所 [2]清华大学智能技术与系统国家重点实验室
出 处:《中文信息学报》1999年第2期24-32,共9页Journal of Chinese Information Processing
基 金:清华大学国家重点实验室开放基金
摘 要:本文构造了一个用于自动生成Internet个人信息索引的实验系统PersonIndexer。在CERNET两个网址上进行的初步实验表明,PersonIndexer对中文姓名、拼音人名、中文机构名的召回率和精确率平均分别为97.8%和61.9%、100%和64.5%、94.5%和92.1%,对电子邮件地址和电话传真号码的召回率和精确率均为100%。鉴于Internet上的信息检索以及自然语言处理这两个领域都互向对方提出了要求,我们相信,面向大规模真实文本的汉语分析技术与Internet的结合。PersonIndexer, a prototype system for automatically generating Chinese personal information index in Internet, is proposed in this paper. Preliminary experimental results on all HTML texts under two CERNET web sites indicate that, the average recall and precision for extraction of Chinese names, Chinese names in Pinyin form as well as Chinese organization names are 97.8% & 61.9%, 100% & 64.5%,94.5% & 92.1% respectively, and the recall and precision for extracting email addresses, telephone and fax numbers are about 100%. We believe that, the integration of large-scale-running-text-oriented Chinese NLP techniques with information retrieval techniques in Internet, will become a hot research topic of Chinese information processing in the near future.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.44