检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国通信建设集团有限公司,北京丰台100071 [2]中国电信集团有限公司,北京100032 [3]中国通信服务股份有限公司,北京丰台100071
出 处:《现代传输》2024年第2期37-40,共4页Modern Transmission
基 金:江苏省研究生科研与实践创新计划项目(KYCX22_1019)。
摘 要:由于检索请求数据自身具有高维特征,导致检索输出的查准率和查全率偏低,为此,本文提出基于哈希算法的互联网平台数据中台资源检索方法。以信息跨域检索为导向,借助哈希算法实现对输入互联网平台数据中台资源检索请求的降维处理,在对输入数据进行清洗、去重、分词等预处理操作的基础上,使用词袋模型的方法,将文本转化为向量,再借助主成分分析法实现对向量的降维。在检索阶段,将与检索请求相似度最高(欧氏距离最小的)资源作为最终的检索输出结果。在测试结果中,资源检索方法面对不同类型的资源检索请求,对应的查准率稳定在91.0%以上,查全率稳定在90.0%以上。Due to the high-dimensional characteristics of the retrieval request data itself,the precision and recall of the retrieval output are low.Therefore,this article proposes a method for searching middle platform resources in internet platform data based on hash algorithm.Guided by cross domain information retrieval,a hash algorithm is used to reduce the dimensionality of resource retrieval requests for input internet platform data.Based on preprocessing operations such as cleaning,deduplication,and word segmentation of the input data,a word bag model is used to convert the text into vectors,and then principal component analysis is used to reduce the dimensionality of the vectors.In the retrieval stage,the resource with the highest similarity(minimum Euclidean distance)to the retrieval request will be used as the final retrieval output result.In the test results,the resource retrieval method faces different types of resource retrieval requests,and the corresponding precision is stable at over 91.0%,while the recall is stable at over 90.0%.
关 键 词:哈希算法 互联网平台 数据中台 资源检索 信息跨域检索 降维处理 词袋模型 主成分分析法 欧氏距离
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.22.66.60