检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:章晟[1] 张启飞[1] 潘雪增[1] 朱旭辉[2]
机构地区:[1]浙江大学计算机科学与技术学院 [2]中国人民解放军南京军区73610部队
出 处:《数据采集与处理》2011年第1期95-100,共6页Journal of Data Acquisition and Processing
基 金:国家支撑计划(2008BAH21B03)基金项目;浙江省公益性技术应用研究计划(2010C31003)基金项目
摘 要:搜索引擎有很多的关键技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领域的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测。实验结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与中文字符特征编码相符率达100%,可以广泛应用于搜索领域。Aimed at Chinese HTML hybrid coding documents on the internet,this paper studies the character encoding composition of Chinese HTML files and clusters the contents of the hybrid coding files.The HTML files are separated into several categories using the classical data mining algorithms DBSCAN.Then,based on feature encoding each class is detected,after clustering hybrid encoding files.Experimental results show that when selecting the appropriate parameters each class in line with the Chinese character encoding features reaches 100%.The method can be used in the field of search engines.
分 类 号:TB319[一般工业技术—材料科学与工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222