检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周强[1] 施水才[1] 李渝勤[1] 吕学强[1]
机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101
出 处:《情报学报》2008年第6期897-901,共5页Journal of the China Society for Scientific and Technical Information
基 金:863计划重点项目(2006AA010105);北京市教委科技发展计划项目(KM200710772010);北京市属市管高校人才强教计划项目(PXM2007_014224_044677,PXM2007_014224_044676).
摘 要:本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要。实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高。This paper proposes an approach of sentence paraphrasing for sentences extracted from the Chinese text. Using the statistic- based method, this paper first analyzes the document, gathers the information of text feature statistics, calculates the weights of the words and sentences, and extracts the sentences with higher weight. Followed by the application of anaphora resolution using an algorithm based on vector resemblance, we remove redundant sentence by presenting a novel measure to calculate sentence vector similarity. After the final use of heuristic rules, the text summarization is generated by post - process to the extracted sentences. Evaluation experiments show that system has got better consistency and fluency and the quality has markedly improved compared to the system before revision.
关 键 词:中文文本摘要 权重 相似度 信息处理 指代消解 句子重述技术
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117