公有领域中大模型开源代码数据训练的惠益分享  被引量:2

Benefit-sharing of Data Training for Large Model Open Source Code in Public Domain

在线阅读下载全文

作  者:张惠彬[1] 许蕾 Zhang Huibin;Xu Lei

机构地区:[1]西南政法大学知识产权研究院 [2]西南政法大学

出  处:《特区实践与理论》2024年第2期48-55,共8页Practice and Theory of SEZS

基  金:教育部重大攻关课题“我国海外利益保护体系构建研究”(22JZD015);重庆市教委科学技术研究重点项目“生成式人工智能对著作权登记制度的挑战与应对研究”(KJZD-K202300304);重庆市社会科学规划一般项目“美国经济制裁介入知识产权领域的影响与应对”(2023NDYB35)。

摘  要:大语言模型的性能提升以海量数据训练为基础,开源代码数据是其重要的语料来源。开源以代码资源的开放共享为理念,以版权保护与协议授权为手段,在传统开源制度中,用户使用开源代码应当附带开源协议输出。而在大模型数据训练中,大模型的介入切开了开源协议的流动,代码数据的无法溯源和开源协议的不兼容使开源协议难以遵守,大模型数据训练的开源之困由此诞生,进而陷入版权保护与产业进步的两难困境。开源协议仅仅是实现技术普惠的工具,在生成式人工智能时代,大模型可以以一种更为开放的方式践行开源的理念,即走向明确的公有领域。在技术普惠理念的指引下,从开源许可协议走向代码数据开放是大模型开源代码数据训练的惠益分享之策。

关 键 词:大语言模型 开源许可协议 公有领域 技术普惠 

分 类 号:D923.4[政治法律—民商法学] D922.17[政治法律—法学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象