未登录词识别

作品数:52被引量:729H指数:12
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:周蕾黄德根曾依灵许洪波朱巧明更多>>
相关机构:中国科学院苏州大学大连理工大学南京师范大学更多>>
相关期刊:《常熟理工学院学报》《烟台大学学报(自然科学与工程版)》《测绘科学》《情报杂志》更多>>
相关基金:国家自然科学基金江苏省自然科学基金国家重点基础研究发展计划江苏省教育厅自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于改进PMI和最小邻接熵结合策略的未登录词识别被引量:4
《计算机系统应用》2020年第6期181-188,共8页徐豪杰 吴新丽 杨文珍 潘志庚 
国家重点研发计划(2018YFB1004901);浙江省自然科学基金(LQ19F020012);浙江省基础公益研究计划(LGF19E050005)。
中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法.滤除文本中无关识别的标点符号和特殊字符后,此方法先运用改进PMI算法识...
关键词:中文分词 未登录词识别 改进PMI算法 邻接熵 
裁判文书类案推送中的案情相似度计算模型研究被引量:18
《计算机工程与科学》2019年第12期2193-2201,共9页王君泽 马洪晶 张毅 杨兰蓉 
国家自然科学基金(61602198)
裁判文书的类案推送策略有助于解决司法过程中的裁判尺度不统一、类案不同判、量刑不规范等问题。针对裁判文书类案推送任务,基于裁判文书在篇章结构和语言表述方面的特征,从裁判文书案情内容的抽取、案情内容中不同词性类别词项的权重...
关键词:类案推送 词性权重 未登录词识别 文本相似度 
基于扩展规则与统计特征的未登录词识别被引量:8
《计算机应用研究》2019年第9期2704-2707,2711,共5页曾浩 詹恩奇 郑建彬 汪阳 
为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法。分析行业领域未登录词构词特点,制定扩展规则,根据扩展规则对分词项进行扩展得到复合词,通过词频、互信息、邻接熵等统计特征判别复合词是否为未...
关键词:未登录词 扩展规则 词频 互信息 邻接熵 
中文文本未登录词识别的研究
《电脑知识与技术》2019年第7Z期203-204,共2页方玉萍 万荣 方达 
云南省教育科学规划教师教育专项课题(立项编号:GJZ1418)
未登录词作为一类特殊词出现,在中文文本处理中常常带来识别歧义,未登录词的识别好坏往往会影响到文本处理系统的整体性能。未登录词识别方法各有千秋,但对于识别未登录词都没有最有效的方法,研究发现利用未登录各类别的特点和难点进行...
关键词: 方法  识别 
中文分词算法研究综述被引量:12
《成组技术与生产现代化》2018年第3期1-8,共8页汪文妃 徐豪杰 杨文珍 吴新丽 
国家自然科学基金重点资助项目(61332017);国家重点研发计划资助项目(2017YFB1002803;2018YFB1004901);浙江省自然科学基金重点资助项目(LZ14E050003);广州市创新创业领军团队资助项目(CXLJTD-201609)
针对制约中文分词算法效能的歧义消除和未登录词识别两大瓶颈,归纳和总结近年来基于词典、基于统计以及基于语义理解中文分词算法的研究内容.基于词典的分词算法以提高时间和空间效率为目标,通过改进词典结构来提高分词效率.双字哈希结...
关键词:中文分词 歧义消除 未登录词识别 词典机制 语义理解 深度学习 
面向中文社交媒体语料的无监督新词识别研究被引量:6
《中文信息学报》2018年第3期17-25,33,共10页张婧 黄锴宇 梁晨 黄德根 
国家自然科学基金(61672127;61672126)
该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法。该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行...
关键词:未登录词识别 社交媒体语料 词向量 无监督方法 
基于未登录词识别的微博评价短语抽取方法
《计算机应用与软件》2017年第6期284-291,共8页汪龙庆 张超 宋晖 刘振宇 
由于微博内容话题分散,识别博文评论对象是微博情感分析研究的热点和难点。研究表明未登录词识别是导致评价短语识别率低的重要原因之一。针对这种情况,提出一种基于文本词序列的词频、凝聚度、左右自由度等统计特征学习未登录词识别模...
关键词:微博 评价短语 未登录词 统计特征 CRFS 
TF-IDF与规则相结合的中文关键词自动抽取研究被引量:35
《小型微型计算机系统》2016年第4期711-715,共5页牛萍 黄德根 
国家自然科学基金项目(61173100;61173101;61272375)资助
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未...
关键词:抽取 未登录词识别 候选词抽取 TF-IDF 
条件随机场与领域本体元素集相结合的未登录词识别研究被引量:3
《现代图书情报技术》2015年第4期41-49,共9页段宇锋 朱雯晶 陈巧 刘伟 刘凤红 
国家社会科学基金一般项目"基于无监督语义标注的网络中文学术信息抽取研究"(项目编号:11BTQ024)的研究成果之一
【目的】建立未登录词识别模型,提升发现自然科学领域文本中未登录词的能力,同时降低人工干预成本。【方法】在假设的基础上,构建条件随机场(CRFs)与领域本体元素集相结合的未登录词识别模型。以生物多样性文本为样本,通过比较不同模型...
关键词:条件随机场 领域本体 未登录词识别 
基于词频学习和动态词频更新的藏文自动分词系统设计被引量:4
《计算机应用与软件》2014年第5期106-109,共4页项炜 金澎 
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别...
关键词:藏文自动分词 自然语言处理 格助词 动态词频更新 歧义处理 未登录词识别 
检索报告 对象比较 聚类工具 使用帮助 返回顶部