基于藏文音节特征的WM多模式匹配算法  

WM Multi-pattern Matching Algorithm Based on Tibetan Syllable Characteristics

作  者:杨媛婷 彭展 YANG Yuanting;PENG Zhan

机构地区:[1]西藏民族大学信息工程学院,陕西咸阳712082 [2]西藏光信息处理与可视化技术重点实验室,陕西咸阳712082 [3]西藏网络空间治理研究基地,陕西咸阳712082

出  处:《科技创新与应用》2025年第8期1-5,共5页Technology Innovation and Application

基  金:西藏自治区自然科学基金项目(XZ202101ZR0089G)。

摘  要:近年来,随着互联网特别是移动互联网在西藏的普及和发展,对涉藏网络舆情的治理也变得越发重要,其中最基本的方式便是敏感词检测。而多模式(字符串)匹配算法正是进行敏感词检测的核心技术手段。作为一种高效的多模式匹配算法,WM(Wu-Manber)算法以其良好的实际表现,在许多场景都得到广泛应用,该算法使用字符块跳转技术来加速匹配过程。然而藏文作为一种音节文字,其文本特性与中英文等文字存在显著差异,若直接将WM算法用于藏文多模式匹配,效果并不理想。针对这一问题,该文充分利用藏文的音节结构特性,对WM算法进行改进和优化,提出适用于藏文的多模式匹配算法——TWM(Tibetan Wu-Manber)。实验结果表明,TWM算法在藏文多模式匹配任务中,相比原始WM算法在效率和准确性上都有显著提高。In recent years,with the popularization and development of the Internet,especially the mobile Internet,in Xizang,the governance of Tibetan-related Internet public opinion has become increasingly important.The most basic method is sensitive word detection.The multi-pattern(string)matching algorithm is the core technical means for sensitive word detection.As an efficient multi-pattern matching algorithm,the WM(Wu-Manber)algorithm is widely used in many scenarios because of its good practical performance.The algorithm uses character block jump technology to speed up the matching process.However,as a syllable script,Tibetan has significant differences in text characteristics from Chinese and English characters.If the WM algorithm is directly used for Tibetan multi-pattern matching,the effect is not ideal.To solve this problem,this paper makes full use of the syllable structure characteristics of Tibetan,improves and optimizes the WM algorithm,and proposes a multi-pattern matching algorithm for Tibetan-TWM(Tibetan Wu-Manber).Experimental results show that the TWM algorithm is significantly improved in efficiency and accuracy compared to the original WM algorithm in Tibetan multi-pattern matching tasks.

关 键 词:多模式匹配 WM算法 藏文处理 藏文音节 音节结构特性 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象