科学研究第四范式到来,数据基础设施如何应对?  

在线阅读下载全文

作  者:黄罡 杨婧如 马郓 蔡华谦 杨勇 景翔 

机构地区:[1]数据空间技术与系统全国重点实验室 [2]北京大学计算机学院 [3]北京大学软件与微电子学院

出  处:《科技纵览》2023年第7期60-63,共4页IEEE Spectrum

基  金:国家重点研发计划“新型研发机构创新服务平台技术研发与应用”项目(项目编号:2021YFF0901100);北京高等学校卓越青年科学家项目(项目编号:BJJWZYJHO1201910001004);中国石油一北京大学基础研究合作项目、新基石科学基金会所设立的科学探索奖的支持。

摘  要:随着以大数据和人工智能技术为代表的新一轮科学技术革命加速演进,研究者们对于科研数据的获取需求也不断提升。互联网上的公开数据成为了以大语言模型为代表的人工智能技术发展的主要原料,先进的大语言模型均需要大规模的文本数据进行预训练,例如AlexaTM使用了1.3万亿个Token进行训练、Chinchilla-7OB使用了1.4万亿个Token进行训练。

关 键 词:人工智能技术 文本数据 大数据 语言模型 科学技术革命 预训练 科研数据 ALEXA 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象