检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:旦增塔杰 仁增多杰 TENZIN Tajie;RENZENG Duojie(Tibet University,Lhasa Tibet 850000,China)
机构地区:[1]西藏大学,西藏拉萨850000
出 处:《信息与电脑》2021年第7期103-105,共3页Information & Computer
基 金:“藏文句子相似度算法研究”(项目编号:S202010694063);西藏大学培育基金项目“基于深度学习的藏文文本自动摘要生成研究”(项目编号:ZDCZJH18-16);西藏自治区教育厅“计算机及藏文信息技术国家级团队和重点实验室建设”(项目编号:藏教财指[2018]81号)。
摘 要:笔者在空间向量模型的余弦相似度算法基础上,通过添加权重、词性和辞藻的方法提高句子相似度计算的准确性,并通过改进原有最长匹配原则的关键字查找方法来提高关键字的查找速度。在该算法中,相似度的准确性主要跟词性和权重有关,因为在单个句子的相似度比较过程中,词频起到的作用比较小,因此词性的标注与其可靠性非常重要。Based on the cosine similarity algorithm of space vector model,this paper improveed the accuracy of sentence similarity calculation by adding weight and part of speech.In addition,it improveed the keyword search method of the original longest matching principle to improve the speed of keyword search.When the amount of data is too large,the time cost of the algorithm will be greatly reduced.In this algorithm,the accuracy of similarity was mainly related to part of speech and weight,because in the process of similarity comparison of a single sentence,the role of word frequency is small,so the annotation of part of speech and its reliability are very important.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.63