中文文本分割模式获取及其优化方法  被引量:7

Method of chinese text segmentation model acquisition and its optimization

在线阅读下载全文

作  者:邹箭[1] 钟茂生[2] 孟荔[3] 

机构地区:[1]江西司法警官职业学院图书馆,江西南昌330013 [2]华东交通大学信息工程学院,江西南昌330013 [3]江西省图书馆,江西南昌330046

出  处:《南昌大学学报(理科版)》2011年第6期597-601,共5页Journal of Nanchang University(Natural Science)

基  金:江西省教育厅科技计划项目资助(GJJ11669);教育部人文社科基金研究项目(09YJC740027;11YJC740157)

摘  要:文本分割是非结构化文本处理的一个重要预处理步骤,对自然语言处理中的许多任务如自动摘要、自动问答和信息检索等的处理效果具有重要的影响。针对文本分割算法要解决的最根本问题:主题相关性度量和边界划分策略,利用"分割单元"内部具有最大的主题相关性而"分割单元"之间具有最小的主题相关性的思想,以上下文相关性分析计算为基础,构建面向中文文本的文本分割模型框架和分割模式的优化方法。通过三组选自国家汉语语料库的测试结果表明,该方法识别分割边界的平均错误率和最低值均好于现有的其他中文文本分割方法。Text segmentation is an important pre-processing step for unstructured text processing.It has an important impact on treatment effect of many natural language processing tasks such as automatic summary,automatic QA and information retrieval,etc.For the most fundamental problems in text segmentation:measurement of the topic relevance,and border demarcation strategy between two subject-units,Using the point of view that within "split unit" it exists the largest subject correlation,and the smallest correlation between "split units",together with the context relevance analysis,it built a model framework of text segmentation for Chinese text and proposed an optimization method for segmentation model.The experimental results showed that our approach would produce a lower average error ratethan that of state-of-the-art methods in the task of Chinese Text Segmentation.

关 键 词:文本分割 模式获取 模式优化 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象