文本生成模型研究  被引量:1

Study on Text Generation Model

在线阅读下载全文

作  者:蒋晶晶[1] 牟向伟[2] 胡家兴[2] 朱友芹[3] 

机构地区:[1]大连东软信息学院信息技术与商务管理系,大连116023 [2]大连海事大学交通运输管理学院,大连116026 [3]山东大学,济南250014

出  处:《价值工程》2015年第13期185-188,共4页Value Engineering

摘  要:文本的生成模型是基于文本向量空间表示基础上,针对文本数据的概率表示,针对文本的产生过程进行统计建模的方法。生成模型的优势在于在准确描述表示文本的前提下,达到提高文本挖掘效率的目的。同时,根植于概率统计的生成模型,拥有一整套用于模型学习、推论、模型比较、选择的理论和方法,是其他非统计方法所无法比拟的。本文介绍了用于描述可交换的离散数据集合主要的几种概率生成模型,在向量空间表示的基础上能够捕捉不同程度的词与词之间的上下文(主题)依赖性,因而在英文文本的挖掘上得到了一定程度的应用和肯定。The generation model of the text is a statistical modeling method for the generation process according to the probability representation of text data and on the basis of the text vector space representation. Advantage of generation model is that it can accurately describe the representation text and achieve the purpose of improving the efficiency of text mining. At the same time, the generation model rooted in probability statistics has a set of theories and methods of for model learning, reasoning, model comparison and choice, which is the other non-statistical methods can not match. This article describes several major probability generation models used to describe the exchengeable discrete data collection, which can capture the context (theme) dependence between words based on the vector space representation and has obtain a certain degree of application and affirm in English text mining.

关 键 词:概率分布情况. 文本挖掘 向量空间 生成模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象