中文大模型生成式摘要能力评估  

Benchmarking the Performance of Chinese Large Language Models for Abstractive Text Summarization

作  者:王俊超 樊可汗 霍智恒 WANG Junchao;FAN Kehan;HUO Zhiheng(Laboratory for Advanced Computing and Intelligence Engineering,Zhengzhou,Henan 450001,China;School of Cyber Science and Engineering,Zhengzhou University,Zhengzhou,Henan 450002,China)

机构地区:[1]先进计算与智能工程(国家级)实验室,河南郑州450001 [2]郑州大学网络空间安全学院,河南郑州450002

出  处:《中文信息学报》2025年第1期1-15,共15页Journal of Chinese Information Processing

摘  要:从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展示出较为优秀的成果。为了评估这些开源大模型在中文摘要任务上的实际表现,该文筛选ChatGLM2-6B、Baichuan2-7B和InternLM-7B等中文大模型作为研究对象,在中文摘要数据集上采用不同提示词生成零样本和少样本摘要,通过自动评估和人工比对的方法详细分析了它们在自动文本摘要任务上的表现及其不足之处。评估结果表明,ChatGLM2-6B和Baichuan2-7B通过零样本的方法通常能够总结出语句通顺叙述详尽的摘要,但在凝练程度上仍有不足;而少样本的方法可以使大模型生成更为精炼的摘要,但对重点信息的把握程度明显下降。此外,大模型也存在陷入重复、出现幻觉、与事实矛盾等问题。ive text summarization,this paper selects ChatGLM2-6B,Baichuan2-7B,and InternLM-7B as subjects.These models are tested on two Chinese summarization datasets using various prompts for both zero-shot and few-shot summarization.The results show that ChatGLM2-6B and Baichuan2-7B typically generate coherent,detailed summaries via zero-shot,albeit lacking conciseness.On the other hand,few-shot method allows LLMs to generate brief summaries,but results in the omission of many key information.Additionally,the models exhibited issues such as repetition loops,hallucinations,and factual inconsistency.

关 键 词:自动文本摘要 大语言模型 能力评估 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象