串频统计

作品数:12被引量:138H指数:5
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:党延忠柯修徐睿峰刘功申李素建更多>>
相关机构:北京大学哈尔滨工业大学大连理工大学中国科学技术信息研究所更多>>
相关期刊:《系统工程理论与实践》《内蒙古煤炭经济》《微型电脑应用》《计算机应用与软件》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划四川省教育厅科学研究项目更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
面向未登录领域词切分的中文分词技术研究被引量:1
《信息系统工程》2013年第11期133-136,共4页蔡荣彦 
国家自然科学基金项目基于语义的Web可用性评估研究(70871115)资助
本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提...
关键词:中文分词 串频统计 未登录词 
基于改进C-value方法的中文术语抽取被引量:23
《现代图书情报技术》2013年第2期24-29,共6页胡阿沛 张静 刘俊丽 
提出一种改进C-value的术语抽取方法,即IC-value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术语;对候选术语进行语言规则过滤;从逆文档频率、破碎子串和术语长度三个方面改进C-value方法得到IC-value...
关键词:术语抽取 串频统计 语言规则 术语度 
基于串频统计的汉语和孟加拉语专有名词识别被引量:2
《现代图书情报技术》2011年第12期31-38,共8页柯修 王惠临 于薇 
中国科学技术信息研究所学科建设项目"自然语言处理"(项目编号:XK2011-6)的研究成果之一
基于Nagao串频统计算法实现汉语和孟加拉语专有名词的识别。提取未经过词性标注的中文和孟加拉语语料中的的n元串,使用改进的SSR算法过滤多余子串,利用字串的相邻字信息计算所有n元串成为专有名词的概率,并据此筛选专有名词。最后,实现...
关键词:专有名词识别 串频统计 Nagao算法 SSR算法 
基于购物网站用户搜索日志的商品词发现被引量:3
《计算机应用与软件》2011年第11期108-111,160,共5页杨锦锋 吕新波 关毅 周春波 
国家自然科学基金项目(60975077;60736044)
商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,对查询进行分词,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。为了降低人工审...
关键词:商品词 新词发现 N元递增分步算法 串频统计 
结合词性分析与串频统计的词语提取方法被引量:19
《系统工程理论与实践》2010年第1期105-111,共7页于娟 党延忠 
国家高技术研究发展计划(863计划)(2008AA04Z107)
在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析...
关键词:文本自动处理 词语提取 原子词 合成词 词性标记 
基于串频统计和词形匹配的分词系统
《中国高新技术企业》2008年第13期111-112,共2页沈静 
中文分词是中文文本挖掘的重要环节。中文分词的方法主要有基于辞典与规则和基于统计两种,"基于串频统计和词形匹配的分词系统"在一定程度上结合了中文分词两种方法的优点于一体,它充分利用文本本身的信息建立临时辞典,再配合一定的常...
关键词:中文分词 汉字短串 串频统计 
基于规则、串频统计和上下文关系的现代汉语分词系统的实现被引量:2
《内蒙古师范大学学报(自然科学汉文版)》2008年第1期71-74,共4页潘大志 成琥 黄青松 
四川省教育厅重点科研基金资助项目(2003A105);云南省计算机技术应用重点实验室开放基金资助项目
介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统...
关键词:中文分词 未登录词 现代汉语自动分词系统 
面向机器辅助翻译的汉语语块自动抽取研究被引量:12
《中文信息学报》2007年第1期9-16,共8页姜柄圭 张秦龙 谌贻荣 常宝宝 
国家973资助项目(2004CB318102);国家863计划资助项目(2001AA1142102002AA117010)
本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统...
关键词:人工智能 机器翻译 语块抽取 串频统计 内部结合 紧密度 信息熵 语块组合规则 
基于标引信息的网络新概念发现算法
《微型电脑应用》2007年第1期8-10,66,共3页夏霙 刘功申 李翔 
国家自然科学基金项目资助:项目编号60502032
网络新概念的发现和识别是信息安全领域的一个基础技术,它可以为网络信息智能处理、网络有效信息识别提供底层支持。通过合理地利用标引信息,算法在速度上可以满足网络海量信息的要求;为了提高新概念发现的准确率,算法不但采用了传统的...
关键词:新概念 串频统计 信息处理 网络挖掘 
基于长度递减与串频统计的文本切分算法被引量:14
《情报学报》2006年第1期74-79,共6页姜韶华 党延忠 
国家自然科学基金资助项目(项目编号:70271046).
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本...
关键词:汉字 自动切分 串频 长串优先匹配 
检索报告 对象比较 聚类工具 使用帮助 返回顶部