检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郭冲[1]
机构地区:[1]华南理工大学计算机科学与工程学院,广东广州510000
出 处:《计算机与现代化》2013年第3期58-62,66,共6页Computer and Modernization
摘 要:使用基于PAT-Tree的候选短语提取算法,通过修改PAT-Tree数据结构使之适合处理变长中文字符串及非中文字符。根据交互信息评估字符串的关联程度,并结合新闻报道和网络热词的特点提出向前过滤算法发现网络热词。与其它同类算法相比,本算法不需要制定复杂的语言规则和候选短语的评分公式,实现更加简单、速度更快。实验证明了本文算法的有效性和正确性。This paper proposes a candidate phrase extraction methods based on PAT-Tree.By modifying the PAT-Tree data structure,the paper makes it suitable for the Chinese string of variable length,then uses mutual information to assess the candidates.Combined with news text's features and characteristics of network hot words,the paper uses a forward filtering method to filter the candidates.Compared with other similar algorithms,our algorithm does not need complex language rules and evaluate formula.The experimental results show that our algorithm is proper and efficient.
关 键 词:网络热词 PAT-TREE 互信息 中文字符串 候选短语
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.124.186