汉语分词

作品数:128被引量:624H指数:16
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:王晓龙于江德王希杰孙茂松樊孝忠更多>>
相关机构:上海能感物联网有限公司哈尔滨工业大学青海汉拉信息科技股份有限公司北京大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金国家教育部博士点基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
大规模语料库 现代汉语分词的有效工具——《大规模现代汉语分词语料库构建及应用》荐读被引量:1
《情报理论与实践》2024年第2期200-200,共1页王知津 
由南京农业大学黄水清和王东波教授编写、南京大学出版社出版的《大规模现代汉语分词语料库构建及应用》一书正式问世了!该书以“新时代人民日报分词语料库”(New Era People’s Daily Segmented Corpus,以下简称NEPD)为研究对象。NEPD...
关键词:汉语分词 语料库 教授编写 人民日报 有效工具 现代汉语 
上古汉语分词与词性标注加工规范——基于《史记》深加工语料库的标注实践被引量:2
《语言文字应用》2023年第4期93-104,共12页郑童哲恒 李斌 
国家语委项目“面向古文读写能力的古汉语分级字表研究”(YB145-41);江苏省研究生科研与实践创新计划项目“《史记》精加工语料库的建设规范及计量研究”(KYCX23_1605);国家社科重大项目“中国古代典籍跨语言知识库构建及应用研究”(21&ZD331)的资助。
上古(先秦两汉)时期流传至今的古籍经典数量大、价值高,亟需进行计算处理和挖掘,作为词法分析的分词与词性标注就成为古汉语信息处理的基础性工作。古汉语文本具有缺乏词语边界、内容艰深、与现代汉语差异大、不同时期差异大等特点,古...
关键词:上古汉语 词语切分 词性标注 规范 《史记》 
中文信息处理的现状与未来展望
《文化产业》2023年第31期37-39,共3页解全颖 
党的十九大上,“文化自信”第一次被正式写进《中国共产党章程》。在向第二个百年奋斗目标迈进的时代背景下,在弘扬中华优秀传统文化,坚定文化自信的征程中,随着我国信息产业的快速发展,中文信息处理变得越来越重要。其中,汉语分词技术...
关键词:中文信息处理 机器学习 汉语分词 信息提取技术 信息产业 语义分析技术 党的十九大 文本分析 
基于文本挖掘的倒闸操作票智能校核方法及应用
《电工技术》2023年第18期138-140,143,共4页关振坚 唐涛涛 刘志欣 吕叶卿 陈月辉 
倒闸操作票的准确性直接影响电力设备与人身安全,现有的出票方法和出票软件存在四大问题,导致操作票出错的情况时有发生。为了解决这些问题,利用操作票规律性强、句式固定、词汇单一等特点,提出了基于文本挖掘的操作票智能校核方法,运...
关键词:倒闸操作票 智能校核 文本挖掘 汉语分词 正则表达式 
基于图卷积神经网络的古汉语分词研究被引量:7
《情报学报》2023年第6期740-750,共11页唐雪梅 苏祺 王军 杨浩 
国家自然科学基金国际重点合作项目“中国儒家学术史知识图谱构建研究”(72010107003)。
古汉语的语法有省略、语序倒置的特点,词法有词类活用、代词名词丰富的特点,这些特点增加了古汉语分词的难度,并带来严重的out-of-vocabulary(OOV)问题。目前,深度学习方法已被广泛地应用在古汉语分词任务中并取得了成功,但是这些研究...
关键词:古汉语 汉语分词 图卷积神经网络 预训练语言模型 BERT(bidirectional encoder representations from transformers) 
第一届古代汉语分词和词性标注国际评测被引量:6
《中文信息学报》2023年第3期46-53,64,共9页李斌 袁义国 芦靖雅 冯敏萱 许超 曲维光 王东波 
国家社会科学基金(21ZD&331);江苏省社会科学基金(20JYB004);国家语委项目(YB145—41);古籍工作重点课题(22GJK006)
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,...
关键词:古汉语 评测 自动分词 词性标注 古文信息处理 
从助词标注看汉语分词软件的问题
《牡丹江大学学报》2023年第2期37-44,共8页郭康平 冯莉 
国家社科项目“基于语料库的当前我国立法语言研究”(项目编号:21AYY012)。
以中文分词标注软件CorpusWordParser对助词标注的结果为研究对象,总结出六种标注错误类型:动词标记为助词、名词标记为助词、量词标记为助词或介词、代词标记为助词、助词标记为动词、助词标记为形容词。同时,比较了同类型的分词标注...
关键词:CorpusWordParser 助词 标注 分词 
基于图的汉语字级别依存分析联合模型被引量:1
《情报工程》2022年第3期68-80,共13页汪凯 梁宇腾 张玉洁 徐金安 陈钰枫 
国家自然科学基金(61876198,61976016)。
[目的/意义]汉语分词、词性标注和依存句法分析作为汉语自然语言处理的三大基本任务发挥着至关重要的作用。基于转移的三个任务联合模型曾经取得最好精度,但是随着神经网络和计算能力的发展,具有全局信息建模能力的图模型,在单任务和两...
关键词:依存分析 联合模型 词性标注 汉语分词 
基于奇异值分解的新闻标题聚类研究被引量:3
《计算机技术与发展》2020年第2期42-46,共5页文晓艺 郝程程 
上海市大学生创新训练项目(201810273116)
和导航中应用广泛。文本聚类作为一种无监督学习算法,其依据是聚类假设:同类的文档相似程度大,不同类的文档相似程度小。文中主要研究汉语文本聚类算法在新闻标题类文本中的应用。首先对采集到的若干条新闻标题进行分词和特征提取,将分...
关键词:汉语分词 词云图 奇异值分解 潜在语义分析 K-MEANS聚类 
基于弱标注数据的汉语分词领域移植被引量:2
《中文信息学报》2019年第9期1-8,共8页朱运 李正华 黄德朋 张民 
国家自然科学基金(61525205,61876116)
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对...
关键词:汉语分词 领域移植 弱标注数据 
检索报告 对象比较 聚类工具 使用帮助 返回顶部