检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:魏超 陈飞[1] 许丹青[1] 张敏[1] 刘奕群[1] 马少平[1]
机构地区:[1]智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系,北京100084
出 处:《中文信息学报》2011年第5期3-8,共6页Journal of Chinese Information Processing
基 金:自然科学基金资助项目(60736044;60903107;61073071);高等学校博士学科点专项科研基金资助项目(20090002120005)
摘 要:网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regres-sion模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论:互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。The rapid growth of Web data poses a great challenge in both storage and service quality for search engines.The existence of low-quality web pages,or rather spam pages,increases the cost of crawling,indexing,and storage in search engines.This paper presents a measure of Web page quality with 4 dimensions: authority,content,timeliness and appearance.Human assessors are recruited to rate the sampled pages using this evaluation framework.High inter-rater reliability of the rating results showed that the framework is consistent and functional.Finally,Ordinal Logistic Regression analyses were conducted to model the relationship between the 4 core dimensions and quality of Web pages.
关 键 词:信息检索 网页质量评价 ORDINAL LOGISTIC Regression
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117