Grass Foundation 发布最新数据集:UpvoteWeb-24-600M

Grass Foundation 最新数据集:UpvoteWeb-24-600M 包含 2024 年 Reddit 上的 6 亿条热门帖子和评论,以及媒体链接和回复谱系。数据已完全匿名化以保护用户隐私,并且包括语言检测和令牌计数。所有内容都适用于工作,并使用 Reddit 的审核元数据进行过滤。
iota.grass网络刚刚用于开源超过 6 亿条 Reddit 帖子和评论!这些内容现在将公开用于 AI 训练,为世界各地的开发人员提供公平的竞争环境。这是消除准入门槛、将 AI 重新交到公众手中的一大步。
这就是 iota.grass 存在的原因。