检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京信息科技大学,北京100101 [2]北京拓尔思信息技术股份有限公司,北京100101
出 处:《中文信息学报》2011年第1期48-53,59,共7页Journal of Chinese Information Processing
基 金:国家863计划重点资助项目(2006AA010105);国家自然科学基金资助项目(60772081);北京市教委科技发展计划资助项目(KM200910772022)
摘 要:热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术——热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。该文所采用的方法已经成功应用到TRS舆情监测系统的热点发现模块。Hot-word is a network phenomenon,which reflects some popular feelings and topics at a particular time and space.In this paper,two key technologies of hot-word analyzing are discussed,including hot-word discovering and associating technique.In the phase of word discovering,firstly,we get named entity recognition techniques and statistical techniques for high frequency phrase to do string excavation.Then,we take the basis of weight and weight fluctuations to compute hot-word weight.Up to the hot-word association,they are derided from the difference of the weight value of hot-word,and hot-word relationship was computed from the principle of co-occurrence rate.The technology has been successfully applied to hot-word discovering module,which is a part of TRS public sentiment monitoring system.
关 键 词:热词 命名实体识别 热度计算 波动权值 词群关系
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117