藏文句子相似度算法研究  

Research on Algorithm of Tibetan Sentence Similarity

在线阅读下载全文

作  者:旦增塔杰 仁增多杰 TENZIN Tajie;RENZENG Duojie(Tibet University,Lhasa Tibet 850000,China)

机构地区:[1]西藏大学,西藏拉萨850000

出  处:《信息与电脑》2021年第7期103-105,共3页Information & Computer

基  金:“藏文句子相似度算法研究”(项目编号:S202010694063);西藏大学培育基金项目“基于深度学习的藏文文本自动摘要生成研究”(项目编号:ZDCZJH18-16);西藏自治区教育厅“计算机及藏文信息技术国家级团队和重点实验室建设”(项目编号:藏教财指[2018]81号)。

摘  要:笔者在空间向量模型的余弦相似度算法基础上,通过添加权重、词性和辞藻的方法提高句子相似度计算的准确性,并通过改进原有最长匹配原则的关键字查找方法来提高关键字的查找速度。在该算法中,相似度的准确性主要跟词性和权重有关,因为在单个句子的相似度比较过程中,词频起到的作用比较小,因此词性的标注与其可靠性非常重要。Based on the cosine similarity algorithm of space vector model,this paper improveed the accuracy of sentence similarity calculation by adding weight and part of speech.In addition,it improveed the keyword search method of the original longest matching principle to improve the speed of keyword search.When the amount of data is too large,the time cost of the algorithm will be greatly reduced.In this algorithm,the accuracy of similarity was mainly related to part of speech and weight,because in the process of similarity comparison of a single sentence,the role of word frequency is small,so the annotation of part of speech and its reliability are very important.

关 键 词:藏文 空间向量模型 相似度 词性 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象