网页分类

作品数:206被引量:649H指数:14
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:陈闳中蒋昌俊孙海春闫春钢王鹏伟更多>>
相关机构:清华大学北京邮电大学中国石油大学(华东)中国科学院更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划安徽省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于BERT的黑灰产网页分类方法研究
《中国科技纵横》2024年第11期18-20,共3页李春霞 崔艳海 彭艳兵 周天河 
本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表...
关键词:网页分类 BERT 数据不平衡 深度学习 
多视角网页分类数据集构建及性能评估
《南京大学学报(自然科学版)》2024年第3期406-415,共10页孙辰星 刘伟 卢彬 梁诗宇 诸云强 甘小莺 
国家重点研发计划(2022YFB3904204);国家自然科学基金(62272301,42050105,62020106005,62061146002,61960206002)。
网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提...
关键词:网页数据集 网页分类 文本分类 数据挖掘 深度学习 
基于SVM的迁移学习方法在互联网金融网页分类中的应用被引量:1
《通信技术》2023年第7期909-914,共6页谢林燕 刘纪伟 张玉 张峰 
河北省省级科技计划(20310701D);中央引导地方科技发展资金项目(216Z0701G);国家计算机网络应急技术处理协调中心青年科研基金项目(2020Q38)。
经过人工标注的互联网金融网页数据量偏小,且新兴金融业态繁多,给互联网金融网页的业态识别带来了困难。对此提出一种基于超平面位置调优支持向量机(Support Vector Machine,SVM)的迁移学习方法。首先利用迁移学习,将相关业态的已标注...
关键词:互联网金融 支持向量机 迁移学习 数据增强 业态识别 
基于卷积神经网络的暗网网页分类研究被引量:2
《计算机应用与软件》2023年第2期320-325,330,共7页洪良怡 朱松林 王轶骏 薛质 
国家重点研发计划项目“网络空间安全”重点专项(2016QY01W0202)。
在海量暗网网页中筛选敏感主题内容对执法部门具有重要意义。通过对Freenet等暗网网页文本特点和类别进行深入分析,提出基于TextCNN的暗网网页主题分类模型。模型根据暗网网页非标准化的语言特点进行数据预处理;使用预训练的词向量获得...
关键词:暗网 网页分类 卷积神经网络 机器学习 
通用的行业网站资讯集成平台的设计与实现
《工业技术与职业教育》2022年第2期10-14,共5页邓子云 
湖南省自然科学基金课题“一种支持多过滤方法组合的海量网页过滤智能引擎的研制与应用”(项目编号:2020JJ7091),主持人邓子云;国家自然科学青年基金“小样本驱动的风电监控系统网络攻击深度检测方法”(项目编号:62103143),主持人陈磊。
为集成行业网站资讯并作排名参考、舆情监控、热点提取等场景应用,组织研发了一种通用的行业网站资讯集成平台。该集成平台需要研发行业网站爬虫系统、行业网站数据处理系统、行业网站数据展示系统这3个软件系统。在分析清楚这种通用的...
关键词:行业网站 Scrapy爬虫 集成平台 网页分类 提取标题 
基于深度残差神经网络的博彩网页识别算法设计被引量:2
《电子技术应用》2022年第2期15-18,共4页张聪 张恒 张立坤 赵彤 邓桂英 
互联网对人民群众的生活和工作产生了重要影响,然而网络空间中隐藏着大量有害的博彩网站或赌博网站,很容易给网民造成损失和困扰,甚至可能扰乱社会秩序,因而研究对此类网站进行高效识别的方法具有重要意义。提出利用深度残差神经网络解...
关键词:卷积神经网络 残差网络 博彩 网页分类 ResNet 
基于Skip-PTM的网页主题分类与主题变迁的研究被引量:5
《小型微型计算机系统》2020年第7期1395-1399,共5页耿宜鹏 鞠时光 蔡文鹏 章恒 
国家重点研发项目(2016YFD0702001)资助;江苏省研究生科研与实践创新计划项目(5561170021)资助。
概率主题模型与词向量模型的结合已经成为主题分类研究的一大热点,本文基于该思想提出了一种适用于网页主题分类的Skip-PTM模型.Skip-PTM模型吸取了LDA主题模型的优势,扩展了Word2Vec的Skip-gram模型,由原来的使用词向量预测上下文词转...
关键词:网页分类 主题变迁 Skip-PTM模型 隐含语义维度 
结合文本语义图和词频统计的网页分类算法研究被引量:2
《计算机与数字工程》2020年第6期1265-1268,1313,共5页周文文 韩斌 黄树成 
国家自然科学基金项目(编号:61772244);江苏省研究生科研与实践创新计划项目(编号:SJCX18_0771)资助。
为解决网页分类算法中仅考虑文本内容或仅考虑词义本身而引起的角度过于单一的问题,提出一种在文本语义图的基础上加入对文本词语频次考察的网页分类算法。首先通过词林相似度和相关性挖掘两种方式构建文本语义图,满足算法对文本词义相...
关键词:网页分类 文本语义图 PAGERANK IDF 
基于眼动实验的网页分类信息优化设计研究被引量:3
《科技和产业》2020年第6期118-122,共5页刘玮琳 孙立英 刘金波 万鹏 
山东省自然科学基金培养项目(ZR2018PG001);青岛理工大学2018年教学改革研究项目(F2018-100)。
旨在探究网页界面中的分类信息设计对用户认知效果的影响规律,进而为分类信息的优化设计提供工效学建议和设计指导。基于分类信息两个设计特征,即整体的视觉复杂度和有无图标辅助展示类别信息,设计四个分类信息设计形式作为实验材料,使...
关键词:分类信息设计 搜索任务 眼动追踪 用户认知 
基于文档分层表示的恶意网页快速检测方法被引量:1
《计算机系统应用》2019年第12期226-231,共6页袁梁 林金芳 
国家自然科学基金(91430214)~~
近年来,恶意网页检测主要依赖于语义分析或代码模拟执行来提取特征,但是这类方法实现复杂,需要高额的计算开销,并且增加了攻击面.为此,提出了一种基于深度学习的恶意网页检测方法,首先使用简单的正则表达式直接从静态HTML文档中提取与...
关键词:深度学习 恶意Web内容 网页分类 恶意网页识别 
检索报告 对象比较 聚类工具 使用帮助 返回顶部