检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吕学强[1] 黄河[1] 李渝勤[1] 施水才[1]
机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101
出 处:《现代图书情报技术》2007年第1期37-39,共3页New Technology of Library and Information Service
基 金:国家自然科学基金项目"Web数据挖掘技术研究"(项目编号:602084);北京市教育委员会科技发展计划重点项目"面向大规模真实文本的数据挖掘技术"(项目编号:KZ200310772013)的研究成果之一
摘 要:针对从BBS文本中自动挖掘新词语的问题,提出一种结合统计和规则的简单易行的方法,采用中文分词、频数统计、词性过滤、词语碎片组合等关键技术。据此方法开发的系统可以自动挖掘不限长度、不限领域、不限类别的与上下文无关的任意新词语。A simple method using statistics and rule is presented for mining Chinese new words in BBS texts automatically, in which we use such key technologies as Chinese segmentation, frequency statistics, speech pattern filter and a series of operations on word fragments. A system developed in this method can mine random context - insensitive new words in any length and in any field, of any kind.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.69