检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:蒋晶晶[1] 牟向伟[2] 胡家兴[2] 朱友芹[3]
机构地区:[1]大连东软信息学院信息技术与商务管理系,大连116023 [2]大连海事大学交通运输管理学院,大连116026 [3]山东大学,济南250014
出 处:《价值工程》2015年第13期185-188,共4页Value Engineering
摘 要:文本的生成模型是基于文本向量空间表示基础上,针对文本数据的概率表示,针对文本的产生过程进行统计建模的方法。生成模型的优势在于在准确描述表示文本的前提下,达到提高文本挖掘效率的目的。同时,根植于概率统计的生成模型,拥有一整套用于模型学习、推论、模型比较、选择的理论和方法,是其他非统计方法所无法比拟的。本文介绍了用于描述可交换的离散数据集合主要的几种概率生成模型,在向量空间表示的基础上能够捕捉不同程度的词与词之间的上下文(主题)依赖性,因而在英文文本的挖掘上得到了一定程度的应用和肯定。The generation model of the text is a statistical modeling method for the generation process according to the probability representation of text data and on the basis of the text vector space representation. Advantage of generation model is that it can accurately describe the representation text and achieve the purpose of improving the efficiency of text mining. At the same time, the generation model rooted in probability statistics has a set of theories and methods of for model learning, reasoning, model comparison and choice, which is the other non-statistical methods can not match. This article describes several major probability generation models used to describe the exchengeable discrete data collection, which can capture the context (theme) dependence between words based on the vector space representation and has obtain a certain degree of application and affirm in English text mining.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222