山西省青年科技研究基金(20031027)

作品数:8被引量:31H指数:3
导出分析报告
相关作者:王素格杨军玲张武崔彩霞由丽萍更多>>
相关机构:山西大学上海大学太原师范学院上海师范大学更多>>
相关期刊:《计算机工程与应用》《科技广场》《中文信息学报》《山西大学学报(自然科学版)》更多>>
相关主题:互信息文本分类动词词语搭配中文信息处理更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-8
视图:
排序:
基于类内频率的文本分类特征选择方法被引量:5
《计算机工程与设计》2007年第17期4249-4251,4265,共4页崔彩霞 王素格 
山西省青年科技基金项目(20031027)
随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用。对文本分类的4种常用特征选择方法进行了介绍和分析,提出了一种基于类内频率的特征选择方法。选用kNN法和支持向量机...
关键词:文本分类 特征选择 文档频率 信息增益 互信息 
基于最大熵模型与投票法的汉语动词与动词搭配识别被引量:3
《小型微型计算机系统》2007年第7期1306-1310,共5页王素格 杨军玲 张武 
国家自然基金项目(60573074)资助;山西省自然科学基金项目(20041040)资助;山西省科技攻关项目(051129)资助;山西省青年科技基金项目(20031027)资助
提出一种基于最大熵模型和投票法的汉语动词与动词搭配识别方法.该方法通过组合目标动词与候选搭配词的上下文词性信息以及关联程度的统计信息构成5种复合特征模板,然后利用最大熵方法获得它们对应搭配识别器,最后采用最好搭配识别器占...
关键词:搭配 最大熵模型 特征函数 投票法 
基于粗集的支持向量机文本分类方法研究被引量:1
《科技广场》2006年第8期4-6,共3页崔彩霞 王素格 
山西省青年科技基金项目(20031027)
本文提出了一种基于粗糙集的支持向量机文本分类方法。该方法利用粗糙集的约简理论降低了支持向量的维数,同时保证了分类性能。实验表明该方法能获得较好的分类效果。
关键词:粗糙集 支持向量机 文本分类 
自动获取汉语词语搭配被引量:14
《中文信息学报》2006年第6期31-37,共7页王素格 杨军玲 张武 
国家自然科学基金项目(60573074);山西省青年科技基金项目(20031027);山西省自然科学基金(20041040);山西省科技攻关项目(051129)
作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用。本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法。实验结果表明:在同现频率较高情况下,互...
关键词:计算机应用 中文信息处理 词语搭配 互信息  
基于改进互信息的动名搭配自动获取方法
《山西大学学报(自然科学版)》2006年第1期19-21,共3页杨军玲 王素格 
山西省自然科学基金(20041040);山西省青年科技基金项目(20031027);山西省科技攻关项目(051129);山西大学校基金
根据动名搭配的结构特点,对基于互信息的搭配知识获取方法进行了改进,使之成功地应用于动名搭配识别.对200万熟语料的实验结果表明,改进的方法比互信息方法的F值有了较大提高.
关键词:互信息 动名搭配 distribution函数 
动词与动词搭配评价体系阈值定量分析
《电脑开发与应用》2006年第1期12-14,共3页彭其伟 王素格 
山西省自然科学基金(20041040);山西省青年科技研究基金(20031027);山西省科委攻关项目;山西大学校基金资助
针对以往凭经验给出的搭配强度、离散度、均值、Z值的阈值等不足,利用统计方法计算动词和出现在其后的动词之间的关联程度,以自动获取动词与动词搭配。利用定量分析的方法对于不同的语料规模,以及搭配评价指标间的关系,给出了确定的阈...
关键词:阈值选取 语料库 动词搭配 评价 
汉语动词-动词搭配规则与分布特征被引量:6
《计算机工程与应用》2005年第23期179-181,共3页由丽萍 王素格 
国家863高技术研究发展计划项目(编号:2004AA115460);山西省青年科技研究基金项目(编号:20031027);山西大学校基金资助
搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。论文面向中文信息处理,通过对真实文本的统计分析归纳了用于自动获取搭配的规则,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础...
关键词:词语搭配 语料库 中文信息处理 
一个基于字特征的文本分类模型被引量:2
《计算机工程与应用》2004年第13期64-65,191,共3页王梦云 王素格 
山西省青年科技研究基金项目(编号:20031027)
提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。
关键词: 文本分类 分类矩阵 特征向量 
检索报告 对象比较 聚类工具 使用帮助 返回顶部