基于改进SO-PMI算法的电力大数据词典构建方法  

在线阅读下载全文

作  者:隋石妍 董佳林 潘伟 SUI Shiyan;DONG Jialin;PAN Wei

机构地区:[1]威海海源电力工程有限公司,山东威海64200

出  处:《信息技术与信息化》2025年第4期162-165,共4页Information Technology and Informatization

摘  要:在大规模文本数据中,许多词汇对的共现情况非常稀少,导致PMI值的计算不稳定。传统SO-PMI算法在计算PMI值时,往往只考虑了词汇对在文本中的共现情况,而忽略了电力大数据特殊的语义关系和上下文关系,导致所计算的词间关联度不够精确,进而影响了电力大数据词典构建的覆盖率、专业性及准确性。为此,文章提出了一种基于改进SO-PMI算法的电力大数据词典构建方法。首先,对电力大数据文本进行分词处理,并对分词结果进行词性标注。计算每个词在文本中的词频-逆文档频率(TF-IDF)值,以筛选出的特征词作为候选词。利用改进SO-PMI算法,计算候选词集中每一对词的PMI值,在此过程中充分考虑电力大数据的特殊语义关系,并引入特定上下文窗口进行平滑处理,得到更准确的词间关联度,有效解决未针对电力大数据特殊语义关系而导致关联度不准确的问题。基于准确的关联度筛选出与电力大数据领域相关的强关联词对,构建电力大数据词典。实验结果表明:采用该方法构建的词典平均覆盖率高达99.45%,其AUC值达到0.95。与传统方法相比,该方法在识别电力大数据领域相关词汇方面表现出更高的全面性和准确性,所构建的词典在覆盖性、专业性和准确性方面均展现出显著优势。

关 键 词:改进SO-PMI算法 电力领域 大数据 分词 词典构建 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象