基于AC自动机和双数组Trie树的藏文多模式匹配算法  

在线阅读下载全文

作  者:崔晨 彭展 CUI Chen;PENG Zhan

机构地区:[1]西藏民族大学信息工程学院,陕西咸阳712082 [2]西藏自治区光信息处理与可视化技术重点实验室,陕西咸阳712082 [3]西藏网络空间治理研究基地,陕西咸阳712082

出  处:《信息技术与信息化》2025年第1期111-115,共5页Information Technology and Informatization

基  金:西藏自治区自然科学基金项目“藏文模式匹配与文本索引关键技术研究”(XZ202101ZR0089G)。

摘  要:多模式匹配算法在网络舆情监管中发挥重要作用,这些算法可以有效地监测筛选出与特定事件相关的敏感词,进而可以快速地对事件做出响应,更好地应对网络舆情的动态变化。然而在处理涉藏网络舆情所涉及的海量藏文数据时,传统针对ASCII字符集的多模式匹配算法,常常无法满足性能要求。在这一背景下,文章针对藏文多模式匹配问题,提出一种适用于藏文字符集的多模式匹配算法——TAC-DAT算法(tibetan Aho Corasick-double array trie),该算法将AC自动机(Aho Corasick automaton)与双数组Trie树(double array trie)结合,减少内存空间占用,同时利用藏文音节字之间以音节点为分隔的特点,优化自动机跳转过程,降低失败字符匹配次数,从而提升了匹配的效率。实验结果表明,该算法在藏文多模式匹配任务中表现出色,相较于传统多模式匹配算法性有明显提升。

关 键 词:AC自动机 双数组Trie树 藏文处理 多模式匹配 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象