检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500
出 处:《计算机工程与设计》2017年第6期1536-1540,共5页Computer Engineering and Design
基 金:国家自然科学基金项目(61562049)
摘 要:为帮助读者更快掌握新闻文本的主旨,确定篇章结构,使用维基百科语义资源库,基于文档链接信息图和分类结构图两大特征计算候选词的路径信息和节点深度以及文档分类信息,利用语关相似度和语似相关度进行初步词汇链的构建,结合越南语特征,提出5个特征项对初建词汇链优化加权处理,实现词汇链最终构建。实验结果表明,对比使用HowNet、WordNet语料库的方法,该方法在准确率和召回率上有显著提高。To help readers quickly grasp the news subject of the text and determine discourse structure,Wikipedia semantic resource library was used to calculate the path information of candidate words,the depth of the node and document classification according to two major characteristics of document connection information diagram and classification structure diagram.The initial lexical chain was constructed by making use of the language similarity and language related degree.Combined with Vietnamese characteristics,five characteristics of the initial construction of lexical chain optimization weighted processing were presented to realize the lexical chain building.Experimental results show that compared with the methods using the HowNet and WordNet corpus,the proposed method has significant improvement on the accuracy and recall rate.
关 键 词:维基百科 词汇链构建 语义相似度 语义相关度 融合多特征
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.52