检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨工业大学语言语音教育部-微软重点实验室,哈尔滨150001 [2]微软亚洲研究院,北京100080
出 处:《哈尔滨工业大学学报》2010年第2期281-285,共5页Journal of Harbin Institute of Technology
基 金:国家自然科学基金重点资助项目(60736044);国家科技发展计划探索类资助项目(2006AA01Z150)
摘 要:为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.To improve the precison of collocation extraction, this paper proposes a new method based on Internet data. For the constraint by the corpus scale for traditional collocation extraction approach based on linguistic corpus, we acquire collocations from Web, which contains plenty of information and knowledge. Three classical association measures of co-occurrence frequency, mutual information and X^2-test are used to automatically extract the collocation. Based on the experimental results, the benchmarks show that the performance of this new Web-based approach is superior to that of traditional approach in both precision and recall. Thus the data from Internet may be applied in many NLP applications.
关 键 词:搭配 共现频率 互信息 卡方检验 语料库 WEB
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:13.58.228.206