无词典分词

作品数:12被引量:105H指数:5
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:王军辉李丹亚胡铁军王永成韩客松更多>>
相关机构:中国医学科学院北京协和医学院上海交通大学吉林工学院广西师范大学更多>>
相关期刊:《计算机应用研究》《计算机与信息技术》《情报学报》《计算机技术与发展》更多>>
相关基金:国家自然科学基金全国教育科学规划课题四川省教育厅科学研究项目江苏省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
领域概念术语提取中特征项自动抽取方法被引量:3
《计算机工程与设计》2012年第8期3189-3193,共5页孙珠婷 顾倩颐 
全国教育科学规划项目国家青年基金项目(CCA100176);四川省教育厅科研基金项目(09ZC080)
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进...
关键词:领域概念术语 特征项自动抽取 领域文本集 无词典分词 位置权重 
一种改进的基于后缀数组的无词典分词方法
《计算机技术与发展》2011年第11期49-52,共4页刘京城 刘锋 
安徽省教育厅自然科学研究资助项目(KJ2009A60)
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减...
关键词:自动分词 无词典分词 后缀数组 
中文生物医学文本无词典分词方法研究被引量:4
《情报学报》2011年第2期197-203,共7页王军辉 胡铁军 李丹亚 钱庆 方安 
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取...
关键词:无词典分词 结构式摘要 生物医学文本 
半结构化数据领域本体构建算法及实现被引量:1
《计算机与信息技术》2011年第Z1期37-40,44,共5页张翔 苏晓龙 吴文辉 
江苏省自然科学基金项目"面向高维复杂数据的粒度知识发现研究"
现有的领域本体大部分都是手工构建的,其过程耗时耗力,近几年如何半自动化构建领域本体的研究越来越多。文章以常用药品说明书作为知识源,结合实际对基于重现的无词典分词方法进行了一定的改进,并且提出了基于分词技术和数据挖掘技术的...
关键词:领域本体 迭代分词 重现 无词典分词 扩展关联规则 
中文文本分类中的特征词抽取方法被引量:16
《计算机工程与设计》2009年第17期4127-4129,共3页李晓红 
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有...
关键词:特征抽取 无词典分词 位置权重 词条过滤 文本分类 
基于自然语言网络教学答疑中无词典分词算法的研究
《西安工程大学学报》2009年第3期95-98,共4页高晓梅 杨旭 
提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词...
关键词:领域语料 规则 无词典分词方法 
基于重现的无词典分词方法在中文生物医学文本挖掘中的应用被引量:5
《医学信息学杂志》2009年第2期21-25,共5页王军辉 胡铁军 李丹亚 
在对文本挖掘和中文分词方法进行概述的基础上,结合中文生物医学文本的特点,提出基于重现的无词典分词方法在构建医学文献相关性数据库、发现医学新名词、预测新兴研究趋势和基于文献的知识发现中的应用设想。
关键词:无词典分词 数据挖掘 文本挖掘 知识发现 文献相关性数据库 
基于数据量的文本分词算法选取的研究
《福建电脑》2006年第9期18-19,共2页王一蕾 吴英杰 
福州大学科技发展基金(2004-XY-13)
分析了无词典分词及最大匹配快速分词算法的特点,并针对大数据量和小数据量两类文本,对两种算法进行性能测试。结果表明,两种算法均适用于大数据量的文本分词。此外,对无词典分词算法加以改进,使之也适用于小数据量的文本分词,并通过仿...
关键词:无词典分词 最大匹配分词 数据量 
一种基于后缀数组的无词典分词方法被引量:14
《吉林大学学报(理学版)》2004年第4期548-553,共6页张长利 赫枫龄 左万利 
国家自然科学基金(批准号:60373099).
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要...
关键词:无词典分词 数组 文档 散列表 计算速度 算法 中文信息处理 法能 频度 实验 
基于统计的无词典分词方法被引量:24
《广西科学院学报》2002年第4期252-255,264,共5页傅赛香 袁鼎荣 黄柏雄 钟智 
通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 。
关键词:分词方法 自动分词 无词典分词 词条过滤 词条统计 中文信息处理 
检索报告 对象比较 聚类工具 使用帮助 返回顶部