检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:唐颖复 江新兰[1] 张伟兵[1] 王志璋[1] 缪纶[1] TANG Yingfu;JIANG Xinlan;ZHANG Weibing;WANG Zhizhang;MIAO Lun(China Institute of Water Resources and Hydropower Research,Beijing 100038,China)
出 处:《水利信息化》2021年第1期20-25,79,共7页Water Resources Informatization
基 金:国家社科基金重点项目(14AZD128)。
摘 要:为改善对当前水利水电行业中大量以自然语言文本形式存在的相关资料挖掘不充分和利用率偏低的现状,在分析水利水电行业文本资料数据特点的基础上,构建水利水电行业的基本词典库,并对Jieba分词器进行算法改进,生成一种水利水电行业专用中文新分词方法,并利用新分词方法对1988-2007年的全国水利工作会议报告进行分析。分析结果表明:提出的新分词方法可以准确地进行语句切分,有利于相关行业研究人员从大量现存文本资料中挖掘出更多潜在的高价值信息。To improve the current situation of insufficient mining and low utilization of valuable materials in the form of natural language text in the water conservancy and hydropower industry,this article analyzes the characteristics of text data in the industry,builds a specific database and improves the algorithm of Jieba word segmentation,which eventually forms a specific word segmentation method for water conservancy and hydropower industry.This method is applied to the reports of the National Water Conservancy Work Conference from 1988 to 2007.Analysis results show that this method performs well in sentence and word segmentations,which has great value in uncovering more high-value information hidden in a large number of existing text materials.
关 键 词:中文分词 Jieba分词 算法改进 水利水电行业 专用 正向匹配法 水利工作会议
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.177