检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]江西司法警官职业学院图书馆,江西南昌330013 [2]华东交通大学信息工程学院,江西南昌330013 [3]江西省图书馆,江西南昌330046
出 处:《南昌大学学报(理科版)》2011年第6期597-601,共5页Journal of Nanchang University(Natural Science)
基 金:江西省教育厅科技计划项目资助(GJJ11669);教育部人文社科基金研究项目(09YJC740027;11YJC740157)
摘 要:文本分割是非结构化文本处理的一个重要预处理步骤,对自然语言处理中的许多任务如自动摘要、自动问答和信息检索等的处理效果具有重要的影响。针对文本分割算法要解决的最根本问题:主题相关性度量和边界划分策略,利用"分割单元"内部具有最大的主题相关性而"分割单元"之间具有最小的主题相关性的思想,以上下文相关性分析计算为基础,构建面向中文文本的文本分割模型框架和分割模式的优化方法。通过三组选自国家汉语语料库的测试结果表明,该方法识别分割边界的平均错误率和最低值均好于现有的其他中文文本分割方法。Text segmentation is an important pre-processing step for unstructured text processing.It has an important impact on treatment effect of many natural language processing tasks such as automatic summary,automatic QA and information retrieval,etc.For the most fundamental problems in text segmentation:measurement of the topic relevance,and border demarcation strategy between two subject-units,Using the point of view that within "split unit" it exists the largest subject correlation,and the smallest correlation between "split units",together with the context relevance analysis,it built a model framework of text segmentation for Chinese text and proposed an optimization method for segmentation model.The experimental results showed that our approach would produce a lower average error ratethan that of state-of-the-art methods in the task of Chinese Text Segmentation.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.42