检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华侨大学计算机科学与技术学院,福建厦门361021
出 处:《华侨大学学报(自然科学版)》2016年第2期201-206,共6页Journal of Huaqiao University(Natural Science)
基 金:福建省科技计划重大项目(2011H6016);福建省科技计划重点项目(2011H0028)
摘 要:将名词、形容词、动名词和命名实体作为文本特征,考虑词序与词频,结合特征项的语义,提出一种基于改进最长公共子序列的文本聚类(LCSC)方法.实验结果表明:相对于传统的余弦值聚类方法,LCSC方法在人名消歧的P-IP指标上,F平均值由74.2%提高到了84.9%;相对于最长公共子序列方法,总体性能也提高了3.7%.This paper uses nouns,adjectives,gerunds and named entities as text features,and also considers the word order and word frequency when computing the text similarity.A text clustering method based on revised longest common subsequence(LCSC)is proposed.The experimental results show that the LCSC method can significantly improve the overall performance in person name disambiguation compared with traditional clustering method and make the average Fmeasure increase from 74.2%to 84.9%.The overall performance also improved by 3.7% when compared with the longest common subsequence method.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222