基于GA的文本子主题切分中的参数优化研究  被引量:2

The Research of Parameter Optimization in Sub-topic Segmentation Dased on GA

在线阅读下载全文

作  者:钟彬彬[1] 刘远超[1] 徐志明[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《计算机工程与应用》2005年第21期97-99,共3页Computer Engineering and Applications

基  金:国家自然科学基金资助项目(批注号:60373100);国家863高技术研究发展计划资助项目(编号:2002AA117010-09)

摘  要:如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。How to subdivide text into multi-paragraph units is an important issue in many NLP applications such as automatic summarization and QA system.In many cases there are not obvious marks between subtopic units,this brings troubles to pick-up the subtopics.In this paper we first analyzed the basic principle of TextTiling algorithm.As the manually-set parameters affect the result of the system greatly,we use GA to optimize the relevant parameters.The precision increased 7.1% by the use of these parameters.Experiments result shows that GA is a simple and effective algorithm.The parameters we got are more suitable for the segmentation of Chinese text.

关 键 词:隐式章节划分 TextTiling算法 遗传算法 参数优化 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象