检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国电信股份有限公司广州研究院,广东广州510630 [2]广东工业大学计算机学院,广东广州510006 [3]广州优亿信息科技有限公司,广东广州510630
出 处:《电信科学》2016年第12期109-115,共7页Telecommunications Science
摘 要:近年来,随着大数据发展热潮兴起,电信运营商能获得的DPI数据规模越来越大。如何对如此海量的DPI数据进行实时的挖掘和分类是运营商研究的热点。设计了一种基于混合n-gram特征的URL分类算法和基于Doc2Vec模型的文本分类算法相结合的DPI数据分类方法,大大提高了DPI数据的分类速度和分类准确率,为电信运营商进行精准营销提供了良好的基础。In recent years, with the rapid development of internet, telecom operators can gather more and more DPI data. How to mine and classify huge amounts of DPI data in real time is the key point. A DPI data classification method was presented, which combined the URL classification model based on mixed n-gram features and the Doc2 Vec based text classification algorithm. The DPI data classification speed and classification accuracy were greatly improved, and good support for precise marketing was provided.
关 键 词:DPI URL分类 文本分类 N-GRAM Doc2Vec
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30