收录 250 亿 Token,Hugging Face开源“世界最大”AI 合成数据集

2024-02-23 18:05:27

  Hugging Face 近日开源了一款名为“Cosmopedia”的AI训练数据集,号称是目前世界上最大的合成数据集。

  该数据集内容均由 Mixtral 7b 模型汇总生成,其中收录 3000 万以上文件,包含大量教科书、博客、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。

  据悉,Cosmopedia 数据集除了收录上述文件外,还为每条文件提供了标注信息,其中包含“提示”、“合成内容”、“初始数据

  Hugging Face 表示,这次开源的数据集为 0.1 版本,未来团队还将持续更新该数据集,推进业界AI训练发展,感兴趣的小伙伴可以点此访问项目地址。

下一篇:太空垃圾危机:天文学家视野受阻,地球恐将拥有“垃圾环”
上一篇:理想汽车通报:两名员工违规接受付费访谈,致使公司商业秘密泄露
返回顶部小火箭