首页 >> 鲜活信息 > 鲜活资讯 >

英伟达等巨头被曝违规使用YouTube数据训练模型 涉17万个视频

2024-07-17 14:10:06 来源: 用户: 

今天【英伟达等巨头被曝违规使用YouTube数据训练模型 涉17万个视频】登上了全网热搜,那么【英伟达等巨头被曝违规使用YouTube数据训练模型 涉17万个视频】具体的是什么情况呢,下面大家可以一起来看看具体都是怎么回事吧!

1、【英伟达等巨头被曝违规使用YouTube数据训练模型 涉17万个视频】据媒体报道,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。

2、这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。

3、报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个视频。

4、该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。

以上就是关于【英伟达等巨头被曝违规使用YouTube数据训练模型 涉17万个视频】的相关内容了,希望对大家有所帮助!

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章