未登录词识别

作品数:52被引量:729H指数:12
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:周蕾黄德根曾依灵许洪波朱巧明更多>>
相关机构:中国科学院苏州大学大连理工大学南京师范大学更多>>
相关期刊:《常熟理工学院学报》《烟台大学学报(自然科学与工程版)》《测绘科学》《情报杂志》更多>>
相关基金:国家自然科学基金江苏省自然科学基金国家重点基础研究发展计划江苏省教育厅自然科学基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=中文信息学报x
条 记 录,以下是1-8
视图:
排序:
面向中文社交媒体语料的无监督新词识别研究被引量:6
《中文信息学报》2018年第3期17-25,33,共10页张婧 黄锴宇 梁晨 黄德根 
国家自然科学基金(61672127;61672126)
该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法。该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行...
关键词:未登录词识别 社交媒体语料 词向量 无监督方法 
基于分词提取重复串的未登录词遗漏量化模型被引量:5
《中文信息学报》2011年第2期122-128,共7页张海军 史树敏 丁溪源 黄河燕 
国家自然科学基金资助项目(60672149);国家863计划重点资助项目(2006AA010109)
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。...
关键词:未登录词识别 重复串 条件随机域模型 中文分词 
基于统计信息的未登录词的扩展识别方法被引量:15
《中文信息学报》2009年第3期24-30,50,共8页韩艳 林煜熙 姚建民 
江苏省自然科学基金资助项目(BK2006539);江苏省高校自然科学基础研究资助项目(06KJB520095)
该文提出一种基于网络资源的未登录词的扩展识别方法。该方法以左右邻信息判断未登录词边界为基础对已识别出的二元候选未登录词种子进行扩展,从而得到不限长度的语义更完整的未登录词。实验证明该文方法可行有效。
关键词:计算机应用 中文信息处理 未登录词识别 左右邻信息 最频繁左邻比 最频繁右邻比 候选OOV扩展 
网络文本主题词的提取与组织研究被引量:14
《中文信息学报》2008年第3期64-70,80,共8页曾依灵 许洪波 白硕 
国家973“大规模文本内容计算”课题资助项目(2004CB318109)
网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了挖掘海量信息中的关键因子并以恰当的方式进行组织,本文设计了网络文本主题词提取和组织算法。该算法基于多级滤噪的切分词拼接,利用特定的噪音库与滤噪策略严格控制拼接过程,在...
关键词:计算机应用 中文信息处理 主题词提取 未登录词识别 切分词拼接 主题词聚类 
面向中文陌生文本的人机交互式分词方法
《中文信息学报》2007年第3期92-98,共7页李斌 陈小荷 
南京师范大学211资助项目(1240702504)
自动分词是中文信息处理的基础课题之一。为了克服传统分词方法在处理特殊领域文本时遇到的困难,本文提出了一种新的分词方法,在没有词表和训练语料的条件下,让用户参与到分词过程中,增加系统的语言知识,以适应于不同的语料和分词标准...
关键词:计算机应用 中文信息处理 自动分词 未登录词识别 陌生文本 人机交互 
中文分词十年回顾被引量:251
《中文信息学报》2007年第3期8-19,共12页黄昌宁 赵海 
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可...
关键词:计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法 
基于决策树的汉语未登录词识别被引量:23
《中文信息学报》2004年第1期14-19,共6页秦文 苑春法 
国家自然科学基金资助项目 (6 9975 0 0 8);国家重点基础研究 973资助项目 (G19980 30 5 0 7)
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和...
关键词:人工智能 自然语言处理 未登录词识别 数据挖掘 决策树 C4.5算法 
基于分解与动态规划策略的汉语未登录词识别被引量:43
《中文信息学报》2001年第1期28-33,共6页吕雅娟 赵铁军 杨沐昀 于浩 李生 
国家 8 63计划! ( 863 -30 6-ZT0 3 -0 6-3 / 863 -30 6-ZD13 -0 4 -4 ) ;国家自然科学基金! ( 697750 17)
:未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名 ,中国地名和外国译名进行整体识别为目标 ,采用分解处理策略降低了整体处理难度 ,并使用动态规划方法实现了最佳路径的搜索 ,较好地解决了未登录词之间的冲突问题。通过...
关键词:未登录词识别 分解处理 动态规划 汉语自动分词 路径搜索 整体识别 
检索报告 对象比较 聚类工具 使用帮助 返回顶部