检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西安交通大学人文学院,西安710049 [2]塔里木大学学报编辑部,新疆阿拉尔843300 [3]塔里木大学信息工程学院,新疆阿拉尔843300 [4]浙江大学计算机学院,杭州310027
出 处:《统计与决策》2018年第18期82-85,共4页Statistics & Decision
基 金:国家自然科学基金资助项目(61562072);新疆维吾尔自治区高校人文社科重点研究基地重点项目(090113B06)
摘 要:传统文本特征词提取方法采用TF-IDF计算文本特征词的权重,但TF-IDF方法只使用了文本中的词频因素,体现不出特征词的位置信息,也忽略了特征词之间的语义相似关系,降低了提取特征词的准确性。针对此问题,文章提出了一种综合的文本特征词权重计算方法,该方法在计算特征词权重时兼顾了特征词的词频、位置和词义信息。实验结果表明,该方法是有效的,且能在一定程度上提高文本相似度结果的区分度和聚类效果。
关 键 词:知网 词频与反文档频率 权重计算 语义相似度计算
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.238.220