面向生成式人工智能的中文语料库建设  

在线阅读下载全文

作  者:向安玲 马雯筱 

机构地区:[1]中央民族大学新闻与传播学院

出  处:《中国出版》2025年第1期35-43,共9页China Publishing Journal

基  金:国家自然科学基金青年项目“面向人工智能生成内容的风险识别与治理策略研究”(72304290)研究成果。

摘  要:在生成式人工智能加速迭代的当下,高质量中文语料库作为一种稀缺资源,已成为中文大模型突破性发展的关键。从自然语言到机器语言,从人际交流到人机交互,语料库出版的底层逻辑正在发生转变。出版企业可结合自身定位和资源优势,面向通用领域语料库进行补充接入,或者搭建专业领域语料库提供垂类服务。无论是“大而全”的通用库,还是“小而美”的专业库,都面临着版权归属争议、资源开放程度、数据流通风险、收益分配机制等多方面的现实桎梏。对于出版企业而言,把握住生成式人工智能量变到质变这一历时性机遇,以高质量语料库作为切口完成自身的深度数智化转型,短期来看需重点解决可供性和可用性问题;长期来看则需要着力可信度和可塑性,通过可供、可用、可信、可塑,在实现“双效合一”的基础上助力“数智驱动”的业态创新。

关 键 词:语料库出版 生成式人工智能 大语言模型 出版数智化 人机交互 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP391.1[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象