检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学信息科学技术学院,合肥230027
出 处:《计算机工程》2012年第22期163-166,共4页Computer Engineering
基 金:国家"863"计划基金资助项目"结合语义的视频服务网站自动发现与分析评估"(2008AA01Z408)
摘 要:提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。This paper presents a Chinese Webpage keyword extraction algorithm based on word extension model. It creates an evaluation function to transform term-document matrix by scoring candidate keyword based on its Web structure, part-of-speech, length, TF-IDF value, and uses the word extension model to extend the candidate keywords into key phrases which is based on the n-gram language model. Experimental results show that the proposed algorithm has better performance compared with the traditional keyword extraction algorithms.
关 键 词:中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229