Grass的网络使用你多余的带宽从互联网上收集AI数据。通过探索人工智能实验室如何训练他们的语言模型,我们可以了解网络访问哪些类型的材料,以及为什么你的个人数据不是等式的一部分。
到现在为止,你可能知道Grass使用你的超额互联网带宽从公共网络上搜集人工智能数据。正如我们过去解释过的,这需要海量网络数据训练语言模型。但是它到底是什么样的数据呢?为什么需要它?
为了理解这些问题的答案,我们需要了解一下大型语言模型是如何工作的。因此,在我们快速了解幕后发生的事情时,请系好安全带。今天,我们将尝试解释LLMs和想要更好的理解AI的成熟想法。那么从哪里开始呢?
LLM及其产生的单词向量
让我们从简单的开始:LLMs是一种人工智能算法,你可以用简单的语言向它提出问题并得到实际的答案。你可能会要求对某个特定主题进行总结,对某个特定段落进行翻译,或者对某个复杂问题进行详细解答。作为响应,它们将生成预测文本来满足您决定输入的任何提示。在未经训练的人看来,这是一个会说英语的机器人。
但是它们是如何工作的呢?最终,LLMs梳理大量的书面语言,找出某些单词相互关联的模式,然后将这些单词翻译成反映这些关系的数字串。这些数字是LLM实际使用的语言,它们被称为“单词向量”。让我们举一个例子来看看它们是如何工作的。
假设:你想吃点肉丸,但你不记得与之搭配的意大利面的名字。如果你问一个LLM如何称呼这种神秘的面条,它会搜索A)面食,B)可能与“肉丸”出现在同一个句子中的名词瞧:“意大利面。”
在一个非常简单的模型中,每个单词向量可能只有两个维度,该模型只为健忘的食客回答与肉丸相关的问题。
1:这个词是形容面条吗?(1表示是,0表示否。)
2: 这个词和书面语中的“肉丸”的相关性有多强?
在这种情况下,意大利面可能表示为【1,0.95】,1表示意大利面是一种面条,0.95表示与单词“肉丸”的相关性为95%。这比模型遇到的任何其他单词的得分都高,因此最有可能是正确答案。这就是你要的:意大利面和肉丸。
所以现在我们明白了LLM是如何传达一个单词与其他单词之间的关系的——但是当问题变得更加复杂时会发生什么呢?与其问什么叫“意大利面”,不如问七岁的孩子意大利语,说出“意大利面”。
为了找到答案,你必须阅读数百万7岁儿童的语录,并确定哪个单词与“肉丸”的相关性最高在这些非常特殊的情况下。事实证明,7岁的孩子——他们对意大利语的熟练程度并不为人所知——很容易把这个单词读错为“sketti”或“basketti”至少,ChatGPT几分钟前是这么报道的。
现在,这提出了几个问题。当回答我们的提示时,只需要对总体相关性进行二维评估,很容易梳理有限的数据,并查看哪个单词在带有“肉丸”的句子中出现得最多然而,一旦我们开始问更复杂的问题,单词向量就需要成倍增长,从而利用更大的信息库。也许你可以看到这将走向何方。如果你想训练一个法学硕士来回答任何的用户可能会问,你将不得不访问更大的数据集。
大数据
虽然我们上面例子中的科学家可能满足于单独研究肉丸,但主要的人工智能实验室正在努力创建令人难以置信的精确LLM,有朝一日可以访问所有记录的人类知识。这要求他们吐出远远超过二维的单词向量,这些向量可以捕捉到他们所阅读的单词之间更微妙的关系。为了举例说明,让我们使用这个模型这是在整个英文维基百科上训练的。
想想“驴子”这个词。在英语中,它的拼写是D-O-N-K-E-Y .向量化后,它的拼写是-0.092339后跟另外5,507位数字。——说起来拗口,也不可能记住。
这个模型中的单词向量很长,因为该模型是在199,430个独特的单词上训练的,它能够为每个单词生成向量,以传达其与所有其他单词的关系。通过以这种方式在整个维基百科上训练他们的模型,它能够回答可能包含在文章中的任何问题。5000个字符的向量长度是每一个相关的信息量的总和。因此,不难发现,如果我们希望这些LLM给出准确的答案,那么他们在单词之间绘制的相关性——以及他们在书面内容中发现的模式——会随着他们接受训练的数据集变得越来越大而变得越来越准确。
但是人工智能实验室怎么可能访问这么多数据呢?
和Grass连接
这是一切与您以及您通过在Grass上运行节点所扮演的角色联系在一起的地方。如果你看看型号列表在我们之前链接的网站上,您可以看到各种各样的产品。一个通过阅读维基百科上的所有单词进行训练,一个通过梳理堆积如山的谷歌新闻文章进行训练,一个通过英国国家语料库进行训练。无论实验室希望其模型在什么数据上进行训练,这都是他们需要访问以训练模型的内容。
事情是这样的:当数据结晶化并且答案不会改变时,这相对简单。如果有人问一个法学硕士哥伦布何时发现美洲,答案永远是1492年。他们可以用大英百科全书来训练它。
但是如果一个法学硕士想要回答关于当代信息的问题呢?如果它想回答关于大众情绪的问题,或者普通人对某个话题的感觉如何?你在哪里可以找到数十亿人对任何可以想象的话题表达他们的想法和意见,以永不停息的方式不断更新?正如他们所说,现代问题需要现代解决方案。在这种情况下,解决方案是社交媒体。
然而,要获取这些信息,需要不间断地连接互联网,从地球的每个角落都能看到互联网,能够下载海量的书面语言。我的朋友,这就是草走进来。它使用其节点网络来查看各种类似的信息,并从公共网站上收集训练数据。这是一件美好的事情。
结论
现在,您已经了解了这些实验室是谁,他们正在尝试训练的LLM,他们用于训练的数据类型,以及他们如何在我们网络的帮助下访问这些数据。这只是对LLM如何训练的最基本的解释,为了简单起见,我们显然省略了很多内容。但希望它能在一定程度上解释幕后发生的事情,以及人工智能实验室如何使用社交媒体网站上提交的公开数据来训练他们的人工智能模型。
你会注意到,在这次谈话中,你的个人数据一次都没有被提及,这是因为它没有被考虑在内。当我们告诉人们网络被用来访问网络数据时,这通常是他们的第一个假设——他们放弃了他们的自己的数据,就像他们一开始使用社交媒体一样。我们只是想写这篇入门文章,让你知道这不会以任何方式发生,甚至百分之一都不会发生——网络被用来访问公共网络数据,通常来自Reddit这样的网站,无论如何你的任何信息都是可见的。所以你可以放心,你的隐私是完好无损的——也许你在这个过程中学到了一些东西。
在人工智能革命中点燃不一样的烟火。在AI大模型训练中获利。