检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《计算机工程与设计》2009年第20期4677-4680,4769,共5页Computer Engineering and Design
基 金:国家973重点基础研究发展计划基金项目(2007CB613507)
摘 要:在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略。首次提出了用支持向量机对最后的抽取结果进行优化。实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率。In keyword extraction approach, a new keyword extraction method is proposed based on tf/idfwith multi-strategies for any field documents. Using n-grams extract a bag ofkeyword candidate, and then define the rational features according to their morphological characters and context information. Moreover, several strategies is proposed to amend the incomplete words gotten from the word segmentation and find unknown potential keywords The experimental result show that the proposed Using support vector machines to improve the results ofkeyword extraction is proposed method outperforms tf/idf in precision and recall.
关 键 词:关键词抽取语言学特征 特征拟合 多元文法 支持向量机
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222