对大多数人来说,这些事件是在多年鸽派货币政策后特定且困难重重的经济背景下发生的。几十年来,随着资产升值而劳动力贬值,财富不平等在全球范围内急剧扩大。普通人明白这一点,但觉得他们被剥夺了足够早地获得投资机会以改善自己处境的机会。普通互联网用户只是将数据战争视为硅谷精英派系之间的内讧,对他们自己没有任何好处,而公众的假设是,脸书将提取我们的数据,谷歌将训练人工智能取代我们的工作,普通人将与这场游戏毫无干系。
另类期货
你可能已经猜到了,这些都不是真的虚构。所有这些事件都是真实的,它们正在实时展开。如今出现的LLM需要大量数据,像DeepMind和OpenAI这样的开发人员现在正与Reddit和Twitter进行谈判,以确定谁可以以什么价格访问这些数据。当Reddit关闭时,或者当Twitter限制用户可以查看的推文数量时,这只是人工智能实验室和社交媒体网站之间正在进行的辩论的附带损害。
然而,在这些谈判中明显缺少第三方:你们。虽然我们在这些对话中提到的内容是由Reddit或Twitter等网站托管的,但重要的是永远不要忘记是谁实际制作了这些内容。我们每天都有。那么,当信息从公共网站出售时,为什么公众没有受益呢?
迄今为止,人工智能实验室要么免费获取这些公共数据,如在Reddit API中,要么为其支付大量费用,如在脸书API中。这两者都是Web 2.0商业模式的产物,在这种模式下,社交媒体公司提取我们的内容,并建立自己的分发业务。然而,随着区块链科技推出Web3的承诺,现在有了另一种选择。这个替代品就是草。
在过去的几周里,温德实验室引入了Grass web扩展,并致力于揭开其网络内部运作的神秘面纱。现在,我们希望传达我们认为这一革命性的分散式网络抓取解决方案的核心价值主张。随着公共网络数据的价值开始直线上升,Grass试图将收集这些数据的网络民主化。这不是微软免费获得,也不是Reddit为了个人利益将其私有化,而是第三条道路,让公众能够集体抓住大型科技企业获取信息的轨道,并由此分配收益。
但首先,让我们回顾一下。
这些数据最初是如何获得的,Grass有什么不同?
收集数据的现有方法
在过去的几个月里,社交媒体网站采取了两种不同的策略来应对不断升级的数据战争:限制人们从网站上获取免费信息的范围,或者通过充当看门人来实现利润最大化。最引人注目的例子是Reddit和Twitter,它们各自的政策变化反映了这两种方法。通过检查它们,我们可以了解一些人工智能公司收集数据的不同方式,以及Grass如何适应现有的系统。
1.在Reddit API上提高价格
从公共网站收集数据的一种方法是执行API调用,这是最直接、最不隐秘的方法。API只是一组以结构化格式返回数据的URL,网站使用它们作为第三方与网站交互的官方方法。一些网站会对他们的专有数据集收费;其他人免费提供它们——但在这两种情况下,数据都是通过官方API访问的。
直到今年4月,Reddit才落入后一类。早在2008年,任何人都可以调用Reddit API来检索发布到网站上的所有信息的结构化数据集。然而,随着数据战争开始升温,它成为了大量书面语言的天然储存库,LLM通过梳理模式来磨练他们的语言能力。大约在IPO谣言开始流传的时候,Reddit意识到他们正在为开发人类有史以来最赚钱的技术提供原材料,并迅速决定参与其中。网站历史上首次提价,Reddit现在正式对下载结构化数据收费。
这个决定的一个意想不到的后果是,人们用来访问网站的许多第三方移动应用现在将被挤出市场。这些应用程序在任何时候向用户显示Reddit内容并允许用户与之交互时都会调用API继续调用只会花费太多。愤怒于失去他们心爱的前端,Reddit生态系统的版主关闭了他们的论坛以示抗议,有些关闭了几天,有些永远关闭了。用户也承诺永远离开该网站,尽管这对该公司强大的用户基础有多严重的威胁还有待观察。
无论你对Reddit争议的感觉如何,它都提供了一个关于API如何工作以及它们如何调解人工智能实验室和社交媒体网站之间关系的有价值的例子。简而言之,API提供了一种经批准的数据收集方法,允许网站从其内容销售中获取利润。这是最有利于社交媒体公司的方法。让我们看看是否有任何其他选择,虽然…
2.Twitter限制网络抓取的努力
紧随Reddit版主反叛之后,Twitter首席执行官埃隆·马斯克(Elon Musk)发布了几条神秘的推文,暗示如下:平台上的数据抓取已经失控,新账户将被限制每天查看300条推文,并且不会提供进一步的解释。虽然用户有各种各样的反应,但很少有人认真对待马斯克的声明,甚至懒得问他这话是什么意思。网络抓取到底是什么,为什么会是这样一个问题?
事实证明,web抓取是我们从公共互联网收集数据的第二种方法,有时它可以用来逃避调用API的限制。当与API交互访问网站后端的数据时,web抓取涉及查看公开可用的网站并在没有帮助的情况下从HTML中提取数据。抓取比使用API提供了更大的灵活性,值得注意的是,它还可以用来规避购买专有数据集的成本。
网页抓取通常是从数据中心进行的,所以当主机打击它时,他们会通过阻止这些IP地址来实现。这就是分散替代方案发挥作用的地方,您可以在我们的早前的博文。本质上,它们通过在网络上运行节点的居民互联网用户的IP地址来路由流量。通过这样做,可以再次访问公共网站,并且客户端通常可以绕过阻止网络抓取的尝试。
可以说,对于Twitter来说,采取措施直接应对正在进行的数据战争的爆发,他们必须认识到这对社交媒体网站的潜在收入流构成了严重威胁。如果API的数据收集方法让网站在追求利润最大化的过程中享有特权,那么网络抓取可能会把权力放回到寻求积累低成本数据的人工智能实验室手中。这是最有利于人工智能公司的方法。
第三条道路
通过这些例子,我们可以得出一些关于数据战争的结论。然而,其中一个最突出的是:它使一点区别都没有个人用户如何从网上收集数据!由于其在开发人工智能中的作用,公共网络数据正迅速成为一种高价值商品,但无论是调用API还是清理网络,大众都不会得到任何补偿。这些选择只是存在于谁获利更多的光谱上:微软的OpenAI,还是埃隆马斯克的Twitter。
事情是这样的。
正如我们之前暗示的,Grass提供了第三种选择,使这些过程民主化。它提供了一个网络,由像您一样的用户支持,可以用来直接访问公共web数据。目前,这些数据是按原样访问的,但很快协议甚至会对其进行清理和准备,以结构化数据集的形式出售给需要它进行人工智能培训的实验室。
最重要的部分是什么?Grass将为用户提供一种为人工智能数据供应做出贡献的方式,并获得网络的股份。最后,世界可以得到公平的对待。
我们很高兴能够提供这款产品,并帮助用户利用人工智能的爆炸。我们将继续发布关于Grass的机制和设计的细节,以及更多关于数据战争和你作为Grass用户所能扮演的角色的文章。