网页质量评价体系的研究  被引量:4

A Framework for Web Page Quality Evaluation

在线阅读下载全文

作  者:魏超 陈飞[1] 许丹青[1] 张敏[1] 刘奕群[1] 马少平[1] 

机构地区:[1]智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系,北京100084

出  处:《中文信息学报》2011年第5期3-8,共6页Journal of Chinese Information Processing

基  金:自然科学基金资助项目(60736044;60903107;61073071);高等学校博士学科点专项科研基金资助项目(20090002120005)

摘  要:网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regres-sion模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论:互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。The rapid growth of Web data poses a great challenge in both storage and service quality for search engines.The existence of low-quality web pages,or rather spam pages,increases the cost of crawling,indexing,and storage in search engines.This paper presents a measure of Web page quality with 4 dimensions: authority,content,timeliness and appearance.Human assessors are recruited to rate the sampled pages using this evaluation framework.High inter-rater reliability of the rating results showed that the framework is consistent and functional.Finally,Ordinal Logistic Regression analyses were conducted to model the relationship between the 4 core dimensions and quality of Web pages.

关 键 词:信息检索 网页质量评价 ORDINAL LOGISTIC Regression 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象