检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:闵可锐[1] 赵迎宾[1] 刘昕[1] 赵泽宇[2] 闫华[2]
机构地区:[1]复旦大学计算机科学与工程系,上海200433 [2]复旦大学信息化办公室,上海200433
出 处:《计算机工程》2008年第19期212-214,共3页Computer Engineering
基 金:上海市科委基金资助项目"上海网络舆情预警检测核心技术研究与应用"(055115030)
摘 要:针对互联网上论坛和新闻网站发布的海量自然语言文本,该文设计一个话题识别与跟踪系统,将海量的数据分类整理并聚合形成各个话题。该系统的核心采用SVM方法进行文本分类,基于知识库和网络流算法实现话题的聚合,测试结果表明,文章分类的正确率达到92%,聚类的正确率达到88%,具有较高的应用价值。This paper designs and implements a Topic Detection and Tracking(TDT) system to process the huge number of natural language text on Web. It classifies the text into several categories, performs clustering in each category to get the topic. The system can detect the hot topics in real-time and track some topics selected by user. The accuracy of text classification is 92%, and the accuracy of clustering is 88%. Experiment shows the feasibility of the TDT system.
关 键 词:话题识别与跟踪 信息检索 支持向量机 分类 聚类
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.189.143.114