融合要素及主题的汉越双语新闻话题分析  被引量:3

Analysis of Sino-Vietnamese Bilingual News Topics Mixing Elements and Themes

在线阅读下载全文

作  者:夏青[1] 严馨[1] 余正涛[1] 汪建成[1] 高盛祥[1] 洪旭东[1] 

机构地区:[1]昆明理工大学信息工程与自动化学院,昆明650500

出  处:《计算机工程》2016年第9期186-191,共6页Computer Engineering

基  金:国家自然科学基金资助项目(61462055;61472168;61262041);云南省自然科学基金资助重点项目(2013FA130)

摘  要:双语话题分析与发现是当前国内外的研究热点,但针对特定文本研究较少。为此,在汉越双语新闻文本中,基于双语主题分布词的汉越文本相似度计算方法,提出融合标题、关键词以及实体等并针对新闻文本的新闻要素特征。将这些新闻特征信息融合到文本相似度计算中构建双语文本相似度矩阵,对汉越双语新闻文本采用自适应K均值算法进行聚类,分析汉越双语新闻话题。实验结果表明,与仅考虑新闻文本相似度的计算方法和K均值聚类方法相比,该方法的准确率、召回率和F值更高。It is a hot research point of analyzing and discovering bilingual topics. However, there is no further research on specific contexts. So this paper puts forward a similarity calculation method for Sino-Vietnamese context based on bilingual subject distribution words in Sino-Vietnamese bilingual news texts. It is mixed with element features of news such as titles, key words and entities, integrates the news feature information into the context similarity calculation to construct bilingual text similarity matrix, and uses adaptive K-means algorithm to cluster Sino-Vietnamese bilingual news texts in order to analyze Sino-Vietnamese bilingual news topics. Experimental results prove that the accuracy rate, recall rate and F-measure of the proposed method are higher than that of the calculation method using only news text similarity and K-means clustering method.

关 键 词:双语新闻话题分析 汉越双语 文本相似度 主题 自适应聚类 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象