检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
出 处:《计算机工程与应用》2005年第21期97-99,共3页Computer Engineering and Applications
基 金:国家自然科学基金资助项目(批注号:60373100);国家863高技术研究发展计划资助项目(编号:2002AA117010-09)
摘 要:如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。How to subdivide text into multi-paragraph units is an important issue in many NLP applications such as automatic summarization and QA system.In many cases there are not obvious marks between subtopic units,this brings troubles to pick-up the subtopics.In this paper we first analyzed the basic principle of TextTiling algorithm.As the manually-set parameters affect the result of the system greatly,we use GA to optimize the relevant parameters.The precision increased 7.1% by the use of these parameters.Experiments result shows that GA is a simple and effective algorithm.The parameters we got are more suitable for the segmentation of Chinese text.
关 键 词:隐式章节划分 TextTiling算法 遗传算法 参数优化
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.40