苹果、英伟达等公司被曝使用争议 YouTube 资源训

2024-07-17 10:27:13

  非营利性新闻工作室 ProofNews 昨日发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB。

  该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 字幕内容,其中还包含 12000 多个平台已删除的字幕内容。

  YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,附上相关信息如下:

  MrBeast

  Marques Brownlee

  Jacksepticeye

  PewDiePie

  YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集,其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。

下一篇:微软邀请玩家测试 Xbox 新功能:可筛选游戏安装
上一篇:小米推出新款 1TB 移动固态硬盘:读写 2000MBs,
返回顶部小火箭