检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]安徽大学计算机科学与技术学院,安徽合肥230039 [2]教育部计算智能与信号处理重点实验室,安徽合肥230039
出 处:《计算机技术与发展》2013年第1期217-220,共4页Computer Technology and Development
基 金:安徽省自然科学基金(06060716);安徽大学研究生学术创新研究(YQH090047)
摘 要:传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的文本相似度计算方法,LDA模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用JS(Jensen-Shannon)距离来计算文本相似度。通过聚类实验表明该方法取得了较高的F值。Text similarity calculation based on traditional TF-IDF vector space model exists high dimensional sparse data, lack of semantic and dimension normalization, the TF-IDF vector space model based on its semantic extension is to solve the pa^ial problem of semantic, but its word similarity computation based on dictionary limits its application scope. Proposed a text similarity computing method based on potential Ditichlet distribution (Latent Dirichlet Allocation, LDA), LDA model can solve all these problems in no dictionary, through the Gibbs sampling method,the text modeling to subject space,and then use JS (Jensen-Shannon) distance computing text similarity. The clustering experiment results show that this method can achieve high F value.
关 键 词:向量空间模型 文本相似度 自然语言处理 潜在狄里克雷分配 主题模型
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.157