检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:黄文娟[1] HUANG Wen-juan(Library of Xi’an International University,Xi’an 710077,China)
机构地区:[1]西安外事学院图书馆
出 处:《信息技术》2019年第11期93-96,102,共5页Information Technology
摘 要:针对传统搜索引擎算法搜索内容需要占用大量人工劳动进行标记,反馈信息和用户搜索信息匹配度低,无法理解人类语言输入等缺点,文中结合自然语言算法对信息的整合过程及理解用户语言过程进行优化。通过建立语料库、提取文本特征信息和模型训练等方法,提出了适用于智能搜索引擎的新型检索算法。文中在CSI语料库、AWS爬虫数据等数据集中进行了测试,测试结果表明,该算法只需进行前期的人工干预和标记,便可以自行搜集专业信息并自行展开机器学习和训练,从而降低维护及使用成本。There are faults in traditional search engine algorithms,such as taking up a lot of manual labor when searching content,low matching degree between feedback information and search information of users,disable in understanding human language input.So,the process of integrating information and the process of understanding the user language are optimized based on natural language algorithm.Through establishing corpus,extracting text feature information and model training,a new retrieval algorithm suitable for intelligent search engines is proposed.In this paper,the tests are carried out in data sets such as CSI corpus and AWS crawler data.The test results show that this algorithm can collect professional information and carry out machine learning and training by itself with only manual intervention and mark in the early stage,which greatly reduces the maintenance and use cost.
关 键 词:搜索引擎算法 人工智能 自然语言处理 文本特征提取 文本分类
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15