潘多拉的魔盒:人工智能训练数据的来源、使用与治理——面向100位AI开发者的扎根研究  被引量:16

在线阅读下载全文

作  者:高泽晋 

机构地区:[1]清华大学新闻与传播学院

出  处:《新闻记者》2022年第1期86-96,共11页Shanghai Journalism Review

摘  要:厘清当前阶段人工智能训练数据在AI开发者端口的来源渠道与使用情态是进一步探讨AI训练数据治理的基础与前提。本研究在扎根理论的指导下,以滚雪球抽样法获得的100位AI开发者为研究对象,通过半结构化访谈结合非正式沟通、现实观察、内部与公开资料搜集等方式获取研究数据并提炼概念与范畴,勾勒出现阶段人工智能训练数据在AI开发者端口的来源渠道与使用情态,主要结论包括:(1)AI开发者群体将经由自行采集、公开数据、爬取数据、第三方购买与模拟产生等不同渠道获取的人工智能训练数据用于数据标注、算法验证等常规用途,但存在猎奇分享、窥探心理等异化用途;(2)AI开发者群体对数据使用边界的心理认知主要包括数据泄露/冒用作假、隐私贩卖/侥幸心理、算法偏见/个人主观、干扰社会事务及心理伤害;(3)个人道德、协议约束、法律担忧与媒介监督等因素警示AI开发者对于数据边界问题保持清醒与冷静;(4)将法律、监管、媒体等哲社制衡方案嵌入到AI开发者的数据来源渠道及操作使用层面,进而寻求创新与伦理间的平衡已成为AI数据治理的关键。

关 键 词:人工智能 训练数据 数据来源 使用情态 数据治理 

分 类 号:G201[文化科学—传播学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象