检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陆斯悦 张禄 李香龙 邢其敬 段大鹏 林华 LU Si-yue;ZHANG Lu;LI Xiang-long;XING Qi-jing;DUAN Da-peng;LIN Hua(State Grid Beijing Electric Power Research Institute,Beijing 100075,China)
机构地区:[1]国网北京市电力公司电力科学研究院,北京100075
出 处:《信息技术》2024年第1期96-103,共8页Information Technology
基 金:国网北京市电力公司科技项目(520223200066)。
摘 要:目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部分被遮蔽的句子的特征编码来度量句子各部分相似度,并将相似度较低的部分进行拆分,再通过N-Gram对于拆分结果进行重新组合,实现电力领域的无监督分词。实验结果表明,文中方法在通用领域优于现有分词工具,尤其在电力领域的分词任务中取得了较好的效果。At present,some word segmentation tools have realized the word segmentation in general domain,however,problems such as few related texts,missing labeled data,and high cost of manual labeling are existed in power domain.To overcome these difficulties,this paper puts forward an unsupervised word segmentation tool based on BERT.Masked Language Model(MLM) is adopted.Besides,on the basis of the feature codes of sentences partially masked by BERT's calculation,the similarity of each part of the sentence are measured,and the parts with low similarity would be split up.Then N-Gram combines the results which are over-segmentation to realize the unsupervised word segmentation in power domain.The experiment results show that the proposed method is superior to the existing word segmentation tools in general fields,especially in power domain.
关 键 词:电力文本 中文分词 无监督 BERT 遮蔽语言模型
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:13.59.1.209