人工智能的通俗解释

2025-08-10

“什么是人工智能”这个问题有点像盲人摸象的故事：盲人和大象，第一个走到大象旁边的盲人说，这看起来像一堵墙，然后另一个摸到腿，这看起来像一棵树。另一个摸到象鼻，那是一根管子。没有人对大象是什么有完整的了解，你从不同的角度看待它。因此，将智能视为寻找特定问题解决方案的这一方面只是大象的一小部分。它是智能的一个方面，但并非全部。

然而，这部分人工智能，同样始于50年代，并在90年代之前占据主导地位，完全忽略了感知方面。它没有解决我们如何理解世界，如何识别物体，或者如何将物体与其背景分离以便我们能够识别它。此外，它忽略了我们思考的方式，不是从逻辑或类似的角度，而是从更抽象的角度。所以这基本上被忽略了。但是人工智能的另一个分支，同样始于50年代，让我们尝试重现我们在动物和人类身上看到的智能机制。

如何理解智能？这在很大程度上是解决特定问题的能力。这是第一项，第二项是学习的能力。这就产生了人工智能的两个分支。

在50年代后期、60年代初期学习的能力取得了一些成功，并在60年代后期衰落了。因为人们在60年代为那些神经网络设计的学习程序被证明是极其有限的。你无法用它来制造真正智能的机器。但它对工程的各个领域产生了很大的影响。其中：一个叫做模式识别的工程领域。这基本上导致了我们可以称之为经典计算机科学的出现。你编写一个程序，该程序内部搜索解决方案，并具有一些方法来检查它提出的解决方案是否良好。人们在60年代为此命名。他们称之为启发式编程，因为你永远不可能穷尽搜索所有解决方案以找到一个好的解决方案。你无法穷尽搜索所有解决方案的原因是解决方案的数量非常庞大。例如，在国际象棋中，你可以走一定数量的步数，但是对于你走的每一步，你的对手都可以做出一定数量的回应。对于每一个回应，你可以走一定数量的步数。这导致了可能轨迹或移动序列数量的指数爆炸。因此，你不可能探索所有这些直到游戏结束才能确定第一步要走哪一步。

因此，你必须使用启发式方法来避免搜索整个可能性图或树。启发式人工智能中，你会有一个用户输入。会有一堆规则，你会使用树搜索或专家人工智能，它将运行一个函数，例如如果这样，那么那样，如果不是，那么这样，以尝试达到最终状态。所以有些系统会事先被定义好，程序完全由人工编写。好系统和坏系统的区别在于，系统在寻找良好解决方案时，能否在不进行穷举搜索的情况下展现出更高的智能。好的，这就是启发式方法的部分内容。

另一种略有不同的方法是基于逻辑的方法，你拥有规则和事实。从现有的事实和规则（这些规则可以是逻辑公式等等）中，你可以推导出哪些其他的事实？这在20世纪80年代非常盛行，并催生了人工智能领域的一个分支，称为专家系统或基于规则的系统。在某种程度上，它与搜索的概念密切相关。然后与之并行的是自下而上的方法。让我们尝试在某种程度上复制并从生物智能的基本机制中获得灵感。这涉及到允许机器学习并基本上自我组织。这基于神经科学家对大脑运作机制的理解，即大脑中的学习机制是通过修改神经元之间连接的强度来实现的。人们设想这种类型的学习实际上可以在机器中复制。

首先，人们认为神经元是简单的计算单元。早在20世纪40年代，沃尔特·皮茨（WalterPitts），数学家。与麦卡洛克一起研究出世界上第一个神经元网络模型。在50年代和60年代初，人们提出了一种非常简单的算法来改变神经元之间连接的强度，以便它们能够学习一项任务。第一台这种类型的机器被称为感知器，于1957年提出。这是一个非常简单的概念，易于理解。假设你想训练一个系统来识别简单的形状或图像。对于计算机或人工系统来说，图像是什么？它是一个数字数组。我们今天理解这一点，因为我们熟悉数码相机和像素，所以让我们以黑白相机为例，考虑一个像素。如果像素是黑色的，它是0。如果它是白色的，它是1。所以它只能取两个值，黑色或白色。如果你想用20世纪50年代的技术来构建它，你会放置一个光电传感器（光电池）阵列，前面有一个镜头，然后你会显示一个图像，分辨率非常低，也许是20×20像素或更低。所以现在这给了你一个可以输入到计算机的数字数组。但在20世纪50年代，计算机极其昂贵，所以他们实际上构建了电子电路。因此，像素是来自光电传感器的电压。然后，你想训练一个系统来识别简单的形状。让我们假设区分在这个阵列上绘制的C形和D形。

所以你展示一个C形的例子，然后让系统产生输出。这个输出也将是一个电压。输出的计算方式是输入像素值（1或0）的加权和。权重是与模拟神经元的连接，这只是一个计算1或0的电子电路，我会将这个1或0乘以一个权重（就像一个可以改变其值的电阻）。然后，所有像素及其权重将被加起来。如果加权和大于阈值，则为C。如果小于阈值，则为D。但这样除了识别简单的形状外，没有什么真正非常实用的应用。你重复展示C和D，对于C，你说增加加权和，对于D，你说减少加权和，所以减少具有1的权重，增加具有0的权重。然后系统最终会确定权重的配置，这样当你显示C时，它高于阈值，当你显示D时，它低于阈值，因此它可以区分两者。它将做什么，你知道的，赋予只出现在C中的像素正权重，赋予只出现在D中的像素负权重，这将对两者进行区分。所以在50年代，我们有启发式AI、专家AI，以及试图模仿生物学的AI。

如今我们是如何用AI训练它呢？训练包括改变这些权重的值。你可以有正权重或负权重。你所做的是展示一个C，系统计算加权和。对于C，你希望加权和很大，例如大于0。但假设它小于0，所以系统犯了一个错误。所以你告诉它，不，它应该更大。你基本上按下按钮，并告诉它，我真的很希望输出更大。因此，系统所做的是改变所有得到1的权重，稍微增加它们。如果你增加了所有得到1的权重，加权和就会增加，如果你继续这样做，每次只稍微改变一下权重，最终加权和将会超过0，然后系统就会将其识别为0。

马文·明斯基，麻省理工学院的教授，对事情有相当强烈的意见，所以有很多讨论。他很有趣，因为他从50年代开始他的博士学位研究是试图构建神经网络，然后完全改变了他的想法，基本上成为另一种方法——更基于逻辑和搜索的方法——的坚定支持者。在60年代后期或60年代中期，他与麻省理工学院的数学家西摩尔·派普特合著了一本书，书名是《感知器》。整本书都是关于感知器的理论，并论证了感知器的能力是有限的。当时从事神经网络研究的人继续进行神经网络的研究，但他们改变了他们所做工作的名称。他们称之为统计模式识别，听起来更严肃，或者自适应滤波理论，也听起来很严肃。这些都有巨大的应用。

当时产生的监督学习，就是你给系统一个输入，它产生一个输出。如果输出不是你想要的，你就调整系数，使输出更接近你想要的。有一些有效的方法可以找出如何调整参数，使输出更接近你想要的。如果你对成百上千、数百万、数十亿个例子重复这样做，最终，如果系统足够强大，它就能弄清楚。现在，感知器的的问题在于，感知器可以访问的输入-输出函数类型非常有限。因此，你无法采用自然图像，比如照片，并训练系统来告诉你其中是否有狗、猫或桌子。系统既无法做到这一点，也没有足够的强大能力来真正计算这种复杂的函数。这就是神经网络和深度学习在20世纪80年代所改变的。

上面说到的是“老式人工智能”（GOFAI），它使用逻辑、搜索和启发式编程等等，这正是在标准人工智能教科书中会找到的内容。然后是机器学习。所以这里的想法是你不会完全编程一台机器去做某事。你从数据中训练它。这意味着你需要数据。任何基于规则的系统，任何使用逻辑推理、从规则和先前事实推断事实、搜索解决方案（比如在图中找到最短路径）的东西，都属于老式人工智能。

我描述的改变系数的过程，向上或向下以获得你想要的输出，你可以将其视为一个迭代过程，与线性回归非常相似。传统机器学习。这基本上源于统计估计。所以像线性回归就是其中一部分。然后还有一些更复杂的方法，提升分类树、支持向量机、核方法。我的意思是，有很多这种类型的贝叶斯推理方法是机器学习的一部分，因为它们遵循这种模型：你构建一个程序，但是程序实际上没有完成。它有一堆可调参数，输入-输出函数由这些参数的值决定。因此，你使用我之前描述的迭代调整技术从数据中训练系统，展示示例。如果答案不正确，则调整参数，使其更接近你想要的答案。这就是监督学习，你告诉系统这是一个输出，这是期望的输出。但是还有其他形式的学习。一种不同的形式是强化学习。

在强化学习中，你不会告诉系统正确的答案，你只会告诉它它产生的答案是好是坏。你给它一个数字，告诉它你的答案是好还是坏。

现在有一个子类别叫做深度学习。而神经网络实际上是深度学习的祖先。深度学习，如果你愿意的话，可以看作是它的一个新名称。然后是应用领域。

如果你的答案很好，你就不会做太多事情。如果你的答案很糟糕，那么你必须找出所有可能的答案中，哪个答案会更好。所以也许你尝试另一个答案，然后你说，这个怎么样？它更好还是更坏？如果环境告诉你它更好，那么你就会稍微弱化第一个答案，并通过调整神经网络内部的参数或其他一些学习机器来强调这个答案。那么什么是自监督学习呢？好的，自监督学习在过去五六年中变得非常突出，并且确实是像聊天机器人和自然语言理解系统成功的主要组成部分或主要贡献。它更类似于监督学习，但不同之处在于，它没有明确的输入和输出，以及训练系统从输入中产生输出，你基本上只有可以作为输入或输出的东西。

让我举个例子。你取一段文字，并以某种方式破坏这段文字，例如删除一些单词，那么现在你有一段部分被掩盖的文本，其中一些单词缺失。你训练一台机器来预测缺失的单词。你会为此使用监督学习技术，因为你告诉系统，这是你应该在该位置预测的正确单词。系统可以使用它能看到的所有单词来预测它看不到的单词。这是一个监督学习的例子？自监督学习。它是自监督的，因为输入和输出之间没有区别。这实际上是同一回事。如果输入例如是一张图像，你训练自监督学习系统的方法是，你会以某种方式破坏或转换图像。然后你将训练系统从其损坏或转换的版本中恢复原始图像。所以没有监督。你不需要有人浏览数百万张图像并将它们标记为猫、狗、桌子或椅子。这是一项通过能够填补空白来理解输入、输入内部结构的任务。

你只能使用你能看到的东西。所以在输入中你看不到答案；你必须预测它。但在训练过程中，我会告诉你答案是什么。因此，系统可以以监督的方式调整其参数。区别不在于算法本身；它基本上是监督学习，但区别在于系统的结构以及数据的使用和生成方式。你不需要有人去浏览数百万张图像，并告诉你桌子上的是猫还是狗。你只需展示一张狗、猫或桌子的图片，然后通过部分更改、改变颜色或进行其他修改来损坏它。然后你要求系统从损坏的图像中恢复原始图像。这就是一种特殊的自监督学习形式。这种方法在自然语言理解方面取得了令人难以置信的成功。例如，聊天机器人或大型语言模型(LLM)就是这种情况的特例，你训练系统预测一个单词。但是，你只允许它查看其之前的单词，也就是它左边的单词。这需要以特定的方式构建神经网络，以便预测一个单词的连接只考虑其之前的单词。

在这个框架中，你不需要破坏输入。你只需显示一个输入，通过系统的结构，模型就可以根据之前的上下文来预测下一个单词。这些都是模拟神经元的特定方式，或者计算非常简单的数学函数（例如加权和）的简单元素，其中可调整的是权重。对于目前非常流行的Transformer架构来说，它基本上包括将每个输入与其他输入进行比较并生成权重。我可以解释一下，这有点复杂，但什么是Transformer层呢？

你可以用几种架构组件来构建神经网络。让我从一个非常简单的想法开始。假设你想要构建一个能够识别图像的神经网络。图像是一组数字，表示每个像素的亮度。你可以构建一个只有一层的神经网络。假设你想要区分十个类别：猫、狗、桌子、椅子和汽车，或者更简单一些，比如识别从零到九的十个数字。有人在16x16像素的区域内绘制一个数字，所以你有256个输入和10个输出。

你可以使用所谓的单层神经网络，其中每个输出都是像素的加权和。你尝试训练这些权重，以便当你显示一个零时，零的输出是最活跃的，而其他输出则不那么活跃，这适用于所有类别。这可能适用于像打印数字这样简单的形状，但它不适用于手写体，因为字符存在很大的差异；你不能将分类简化为简单的加权和。

20世纪80年代取得的突破是堆叠多层神经元。每个神经元计算一个加权和，然后将这个加权和通过一个本质上的阈值函数。如果加权和低于阈值，则神经元保持非活动状态，产生零输出。如果高于阈值，则变得活跃。有多种方法可以实现这一点，但非线性非常重要。

通过堆叠两层，中间层可以被认为是检测输入中的基本图案，而第二层则整合这些图案来确定，例如，给定的形状是“C”，因为它有两个端点。系统通过一种称为反向传播的算法端到端地学习这样做。反向传播算法所做的是，当你显示“C”的图像并指示系统激活该输出神经元而不激活其他神经元时，调整参数。

该算法反向传播信号以确定每个输出对每个权重的敏感性，从而允许以这样一种方式改变权重：好的输出增加，坏的输出减少。反向传播算法出现在20世纪80年代。从概念上讲，它在此之前就存在了，但人们并没有意识到它可以用于机器学习。这导致从80年代中期开始对神经网络的兴趣激增，持续了大约10到15年，因为人们试图利用多层网络的思想。

这至关重要，因为它消除了明斯基和帕珀特在20世纪60年代关于感知器的某些限制。然而，人们很快意识到训练这些神经网络需要大量数据，而互联网之前数据稀缺，高速计算机也不普及。结果，人们对神经网络的兴趣有所减弱。

强化学习是一种情况，你不会告诉系统正确的答案是什么。你只是告诉它它产生的答案是好是坏。对。好的。所以有很多可能的答案。它非常低效，因为系统必须尝试很多东西才能得到正确的答案。所以它非常低效。它需要大量的试验。所以它非常适合游戏。它非常有效。如果你想训练一个系统来下国际象棋、围棋或类似的东西，比如扑克，强化学习就非常棒。因为你可以让系统与自身或自身的副本进行数百万场游戏。它可以调整，你知道，它赢或输了一局游戏，所以它知道哪个策略，哪个神经网络的变体赢得了比赛，并强化它，并弱化输掉比赛的那个。因此，系统基本上可以自我训练。

卷积网络

这是一种将模拟神经元相互连接的特定方式，使其偏向于对某些类型的数据执行良好的工作。卷积网络非常擅长处理来自自然界的数据，无论是图像还是音频信号，这些数据都是出现在图像或音频信号中数字数组中相邻值的。相邻值通常彼此非常相似。

例如，如果你拍摄一张照片，任何自然图像，并且你取两个相邻像素，它们很可能具有相同的颜色或相同的强度。我说的是这样一个事实：自然数据，如图像和音频，几乎任何自然信号，都具有一定的底层结构。如果你以特定方式构建一个神经网络，可以利用这种结构，它将学习得更快，并且需要的样本更少。

我们从80年代后期开始对此进行实验，并构建了这些卷积网络。它们实际上受到了视觉皮层结构的启发，并且有一些数学上的理由。基本思想是，卷积网络中的每个神经元只查看图像的一小部分区域。多个神经元查看图像的多个区域，并且它们都做同样的事情；它们都具有相同的权重。

这是一个与称为卷积的数学概念相关的基本概念，这就是为什么这些东西被称为卷积网络。这就是所谓的架构组件。一个模块，一个卷积，具有一个有趣的特性：如果你向它显示一个输入，它将产生一个特定的输出。如果你移动输入，输出将被移动，但其他方面保持不变。对于音频信号、图像和各种其他自然信号，这是一个非常有趣的特性。转换器是一种不同的神经元排列方式，你可以将其理解为，输入是许多不同的项目。我们称它们为标记；它们实际上是向量，这意味着数字列表。转换器层或块的特性是，如果你置换输入，输出将被类似地置换，但其他方面保持不变。

如果你给出一堆标记，运行转换器，你将得到一堆输出标记，通常与输入标记的数量相同。会有不同的向量。如果你现在取输入标记序列的前半部分和后半部分并将它们翻转，你将得到与之前相同的结果，但它将以完全相同的方式翻转。所以输入-输出函数在技术上我们称之为对置换等变的。它基本上将输入视为一个集合，其中对象的顺序无关紧要。

卷积网络，另一方面，将输入视为一个对象可以出现在输入任何位置的东西，它不应该对输出产生任何影响。或者输出应该改变，但除此之外，它应该移动，但除此之外保持不变。这就是对平移的等变性。现在，当你构建一个神经网络时，你基本上会组合这种类型的组件，以便从整个神经网络中获得你想要的特性。

卷积是卷积神经网络的一个组件。它的想法是，你有一个神经元查看输入的一部分，然后你还有另一个神经元查看输入的另一部分，但它计算的函数与第一个神经元相同。然后你将相同的神经元复制到输入的每个位置，这样你就可以将这些神经元中的每一个视为检测输入一部分上的特定主题，所有神经元都在输入的不同部分检测相同的主题。这样，如果你取一个输入并将其移动，你将得到相同移动的输出，因为你将有相同的神经元在不同位置检测相同的主题。这就是赋予你这种平移等变性的原因。这就是卷积。在数学上，有一种叫做卷积的东西，数学家很久以前就发明了，这基本上就是它所做的。

我们使用这个神经元术语，这是一种语言滥用，因为这些神经元并不真正像大脑中的神经元。它们与真实神经元的相似性就像飞机机翼与鸟类翅膀的相似性。所以它具有相同的概念。神经网络中的神经元所做的是计算其输入的加权和，然后将该加权和与阈值进行比较，如果高于阈值则激活输出，如果低于阈值则产生零。这就是基本的神经元。现在也有各种变化。在转换器中，它是一种稍微不同的数学方法。你是在将向量相互比较等等。但这基本上是神经元的核心功能。它是一个线性运算的组合，其中你有一些系数，可以通过训练来改变它们的值。然后是一个非线性函数，一个阈值或类似的东西，它检测某些东西或不检测某些东西。

语言模型的概念可以追溯到20世纪40年代。一位名叫克劳德·香农的先生，他是一位非常著名的数学家，曾经在贝尔实验室工作，他提出了信息论，然后对这样一个想法着迷：你可以发现数据中的结构，所以他发明了一些东西，你用它来取一段文字，然后你说，我给你一个字母序列，我问你，接下来是什么字母？所以让我们取一个英语单词或某种，比如说，罗曼语系的单词。

如果你有一系列字母，最后一个是Q，那么下一个字母很可能是U。你几乎不会在没有U的情况下出现Q，除非它是一个阿拉伯语单词或已被翻译的单词。对吧。所以对于你观察到的每一个字母，你可以建立一个概率表，下一个字母可能是A、B、C……

它是这样生成的：如果你有一个我们称之为条件概率的表，对吧，给定前一个字母，下一个字母的概率是多少，你可以用它来生成文本。你从一个字母开始，比如Q，然后你查阅概率表，看看下一个字母最可能是哪个。你可以直接选择那个字母，或者根据它的概率选择下一个字母，就像抛硬币或在计算机中生成随机数一样。然后你根据你在真实文本中测量的概率生成下一个字母。你不断这样做，系统就会生成字母。它看起来不像单词，可能甚至无法发音。但是，如果你不使用一个字母的上下文，而是使用两个字母的上下文，它就会变得更容易阅读一些。它仍然不是单词，对吧？如果你使用三个字母的上下文，它就会变得更好。随着你增加决定下一个字母概率的上下文的大小，它就变得越来越容易阅读。然而，你会遇到一个问题，那就是你需要的数据表大小会显著增加。如果你查看第一个字母并计算出下一个字母的概率，你需要一个26行26列的表。对于每个第一个字母，你需要每个可能的第二个字母的概率，这就形成了一个26x26的表。

现在，如果上下文有两个字母，你表格的行数就变成了26的平方，因为有26的平方种可能的两个字母序列。对于每一种序列，你需要26个概率，这导致表格大小为26的立方。当你添加字符时，表格大小会增加到26的n次方，其中n是序列的长度。这被称为n元语法模型，本质上是一个语言模型。你可以在字符级别实现它，但在词级别实现它就更难了，因为你可能有10万个可能的单词，这会导致一个巨大的表格。你可以通过使用大量的文本语料库进行训练来填充这个概率表，从而训练一个词模型或语言模型。然而，在一定的上下文长度以上，它就变得不切实际了。

在90年代后期，一些人，特别是YoshuaBengio，想到了可以使用神经网络进行这种预测。与其用从文本中测量的条件概率填充表格，不如训练一个神经网络根据单词上下文来预测下一个单词。目标是训练网络生成下一个单词的概率分布。Bengio使用当时很大的神经网络进行了实验，但按今天的标准来看，它们很小。面临的一个困难是，你无法准确预测下一个单词是什么，所以你必须对所有单词生成一个概率。一种典型的语言中可能有大约10万个单词，这意味着你需要输出10万个分数，每个分数对应一个单词，表示该单词紧跟在之前的单词序列之后的概率。他证明了这种方法是有效的，即使在当时的计算机上，这也是一项相当具有挑战性的任务。

随着Transformer架构的引入，这个想法最近又重新兴起，我没有解释过。这些系统基本上是在互联网上所有公开可用的文本上进行训练的。通过构建这些系统的架构来处理大量的单词上下文并预测下一个单词，它们显示出了显著的改进。当上下文可能非常大，从几千到几万甚至一百万个单词不等时，生成的系统似乎表现出涌现特性，例如回答问题的能力。

这些模型的规模令人印象深刻，有些模型拥有数百亿甚至数千亿个参数。如此大量的可调整参数为它们提供了巨大的内存容量，使它们能够存储大量关于它们所训练数据的知识。当在文本上进行训练时，这些模型可以复述谜题的解决方案并回答各种问题。然而，这主要是一个检索问题，只涉及非常少量的推理，这是一个重要的局限性。

尽管如此，这些系统的工作效果仍然令人惊讶。人们对它们令人印象深刻的语言处理能力尤其感到震惊。虽然人类在语言处理方面存在局限性，但这些系统似乎在这方面表现出色。它们能够捕捉语法、句法，甚至能够非常有效地处理多种语言，这真是太令人惊叹了。

然后在Transformer之下，有几种变体，其中一些可以应用于图像识别或音频，而另一些可以应用于表示自然语言，但不能生成自然语言。然后还有一个子类别，大型语言模型，它们是自回归Transformer。因此，Transformer具有允许其预测下一个单词的特定架构，然后你可以用它来生成单词。给定一个已经训练好用于生成下一个单词的单词序列，当你有一个文本时，你必须生成下一个单词。然后你将输入移动一位，所以现在它生成的单词成为其输入的一部分，你可以要求它生成第二个单词。移动它，第三个单词，以此类推。这是自回归预测。它与金融和计量经济学等领域的自回归模型概念相同。一样的。

它对文本有效，而对其他事物无效的原因在于文本是离散的。因此，可能发生的事情数量是有限的。字典中的单词数量是有限的。所以，如果你能将你的信号离散化，那么你就可以使用这些自回归预测系统。主要问题是你永远无法做出精确的预测。因此，系统必须学习某种概率分布，或者至少产生针对不同潜在输出的不同分数。如果你有有限数量的可能性（语言就是这样），你可以输出一个概率列表。

我一直直言不讳地说，最聪明的LLM不如你的家猫聪明。这是真的。因此，未来几年的挑战是构建能够克服LLM局限性的AI系统。我们需要能够理解物理世界并拥有持久记忆的系统，而LLM目前实际上并不具备这一点。持久记忆意味着它们能够记住事情，将事实存储在内存中，然后在有趣的时候检索它们。

LLM拥有的记忆只能分为两种类型。第一种类型存在于参数中，存在于训练过程中调整的系数中。这个过程允许模型学习某些东西，但它并没有真正存储特定的信息片段。例如，如果你在一个小说集合上训练一个LLM，它不能逐字逐句地重复这些小说。但是，它会保留关于这些小说中单词的一些统计信息，并且可能能够回答关于故事的一般性问题。这有点类似于人类阅读小说；除非付出巨大的努力去记住，否则他们不会记住每一个单词。

LLM的第二种记忆类型与你输入的提示提供的上下文有关。由于系统可以生成单词，这些单词或标记充当有限形式的工作记忆，通常取决于即时输入。然而，与生物记忆系统相比，这种记忆形式非常有限。

我们最终想要的是一个更接近人类和其他哺乳动物拥有的记忆系统，特别是海马体。海马体是大脑深处的一个关键大脑结构，是大脑内部或皮质的一部分。它在记忆形成中起着至关重要的作用；如果没有海马体，一个人就不能记住超过大约90秒的事情。

通过理解我将要采取的行动——合拢我的手抓住玻璃杯并举起它——我可以预测在执行该动作后的t+3秒时世界的状态。在这种情况下，我预测我的手中将会有玻璃杯。如果你有这种类型的世界模型，记住世界的状态、动作和世界的下一个状态，那么你可以设想并预测一系列行动的结果。你可以预测这些结果是否满足你想要实现的目标，例如喝一口水。

此外，通过搜索方法，我们可以将这种推理与传统的AI原理联系起来。我们可以搜索一个实际上能够满足我们预期目标的动作序列。这种类型的推理和规划对应于心理学中所说的系统2。诺贝尔奖获得者丹尼尔·卡尼曼区分了系统1和系统2。系统1指的是可以自动和潜意识地执行的动作——本质上是反应性的——而系统2则涉及到产生特定动作或一系列动作所需的深思熟虑的计划和思维过程。

我们也有多种类型的记忆。我提到了海马体。海马体用于存储长期记忆，例如你小时候发生的事情以及关于世界的基本事实，比如你妈妈的出生日期。它也有助于更近期的短期记忆。这可能包括情景记忆，与个人经历有关；以及工作记忆，你暂时在脑海中处理信息。这是海马体的作用，而你的大脑皮层则进行计算并读取这段记忆来更新它。这非常像一台电脑，大脑皮层是CPU，而海马体是你读取和写入的内存。

然而，当前人工智能系统的设计并非如此。大型语言模型(LLM)除了你可以生成标记的提示之外，没有单独的记忆。它们缺乏搜索一系列答案以确定哪个答案正确的能力，尽管它们正在逐渐具备这种能力。你可能听说过OpenAI的O1，它与Meta和其他机构的类似工作有关。这些工作涉及非常基本的推理形式，包括让大型语言模型生成许多不同的词语序列，然后通过一种方法搜索此列表以找到最佳答案。尽管如此，它仍然非常低效，最终，这不是我们想要的。

因此，他们将能够想象一个行动或一系列行动的结果是什么。他们也许能够分层地规划复杂的行动序列，因为这些世界模型将是分层的。他们将拥有能够进行短期预测的世界模型，进行准确的预测，但仅限于短期。例如，如果我以这种特殊的方式移动我的肌肉，我的手臂将在大约一毫秒后位于这个特定位置。这是非常短期的，但非常精确。然后是更长时间的预测。例如，如果我去机场乘飞机，我明天早上就会到达巴黎。或者如果我学习并在大学取得好成绩，我就能拥有美好的生活等等，对吧？所以你可以做出长期预测并制定计划，以满足你拥有的某些标准。

如果我们能够构建系统……如果人工智能能够预测未来，那将是乌托邦还是反乌托邦？乌托邦，因为它将只是预测未来的另一种方式，而不是我们的大脑，以及规划行动序列以满足某些条件来实现目标，这与使用我们的大脑、也许积累更多知识才能做到这一点以及拥有人类由于大脑的局限性而没有的能力是不同的，对吧？电脑可以计算等等，对吧？所以未来是，如果我们在这个计划中成功，这可能在未来五到十年内成功，你知道，五到十年，我们将拥有这样的系统……

随着时间的推移，我们可以发展到变得像人类一样聪明，也许吧。所以在十年内达到人类级别的智能。这可能是乐观的，好吧？如果一切顺利，我们一直在制定的所有计划都将成功，那么五到十年就足够了。我们不会遇到意想不到的障碍。但这几乎肯定不会发生。

像AGI和人类级别的智能，还很遥远或不太可能?不，我认为它并没有那么遥远。我认为我对其距离的看法与你从奥特曼、德米斯·哈萨比斯等人那里听到的观点不会有太大差异。这，你知道，很可能在十年之内，但不会发生在明年，也不会发生在两年后，它需要更长的时间。因此，你不能仅仅根据大型语言模型（LLM）的能力进行推断，认为我们只需要扩大LLM的规模，用更大的计算机和更多的数据来训练它们，人类水平的智能就会出现。事实并非如此。我们将需要新的架构，例如JEPAs系统，这些系统能够从现实世界中学习，并能够分层规划，能够规划一系列行动，而不是像现在这样，基本上只是在不加思考地一个词一个词地输出。所以是系统二而不是系统一。LLM是系统一，我所说的这种架构，我称之为目标驱动型AI，是系统二。

仍然需要收集数据和过滤数据，以保持高质量的数据，并基本上去除垃圾数据。这实际上是整个过程中相当昂贵的一部分。但我认为，在这方面需要发生变化的是，目前LLM的训练是利用公开可用数据和许可数据的组合进行的。但它主要还是公开可用数据，也就是互联网上的公开文本。对吧？而且它在很多方面都极度偏见，因为其中很大一部分是英文的。在像印地语这样的常用语言中，有大量的數據，但在印度所有22种官方语言中却没有那么多，更不用说所有700多种方言了（无论具体数字是多少），尤其是一些方言根本没有文字记载。

所以，我们未来需要更全面的数据集，以便用这些数据集训练的系统能够理解世界上所有语言、所有文化和所有价值观。我认为没有哪个单一实体能够做到这一点。

这就是为什么我相信人工智能的未来将成为一种共同的基础设施，人们将用它作为所有人类知识的储存库。这不可能由单个实体建立；它必须是一个协作项目，培训将在全球范围内进行。这样，我们可以用来自世界各地的数据训练模型，而无需在任何地方复制数据。

在那种未来，我也提到了模型的分布式训练，拥有本地计算基础设施我认为非常重要。所以，是的，我认为这至关重要。它至关重要有两个原因。一是拥有本地训练模型的能力。第二个是能够非常低成本地访问人工智能系统的推理服务。因为如果你想让，我不知道，8亿印度人使用人工智能系统，对吧？我知道印度人比这多得多，但大多数人，你知道，不是每个人都会使用人工智能系统。

这需要大量的计算基础设施，实际上比学习的基础设施大得多。而且在这种场景中，创新比训练多得多。目前，训练主要由英伟达主导。未来会有其他参与者，但由于软件堆栈的原因，他们很难竞争。他们的硬件可能非常好，但软件堆栈是一个挑战。然而，对于推理，创新要多得多。而这种创新正在降低成本。我认为LLM的推理成本在两年内下降了100倍。我的意思是，这太令人惊讶了，对吧？它比摩尔定律快得多。我认为仍然有很大的改进空间。你需要这样做，因为你基本上需要将一百万个标记的推理成本控制在几卢比以内。如果你想在印度广泛部署人工智能辅助系统，这就是它的巨大未来。

那么今天，就现在而言，与AI相关的最可能的商业模式是采用像LLAMA这样的开源基础模型——这是一个数据开源系统，现在随处可见。几乎每家初创公司，甚至大型公司都在使用它。所以，选择一个开源平台，无论是大型语言模型（LLM）、图像特征提取系统还是分割系统，等等，然后针对特定垂直应用进行微调，并成为该垂直应用领域的专家。

这当然是一件好事。我认为在能够为特定垂直领域微调模型的公司方面还有很多工作要做。还有一些更注重消费者的市场，比如各种教育辅助工具。除非能获得政府合同，否则这方面的资金并不多。但教育无疑是一个广泛的应用领域。

另一个重要的领域可能是医疗保健。尤其是在发展中国家，有很多公司正在成立，利用大型语言模型提供医疗辅助。你打电话给你的大型语言模型，说，我有一些症状，我应该去医院吗？或者，你知道，这是我的问题。这比预约医生要容易得多。在某些地区，看真正的医生基本上是不可能的，你必须去城市或其他地方。所以我认为这将非常有用。

在农村地区，还有其他应用，特别是那些由能够说当地语言的AI助手支持的应用，可以服务于那些不太习惯阅读和写作的人。通过母语语音与AI助手互动，我认为这将在农业以及各种领域开启许多应用……

从企业家转向投资者，投资者投资AI会有什么好处？是英伟达、LLAMA、Meta、ChatGPT、OpenAI吗？五年后，世界将由开源平台主导。这与嵌入式设备和操作系统领域由Linux主导的原因相同。整个世界都在运行Linux，而20年前、25年前并非如此。是的。它之所以如此，是因为开源平台更具可移植性、更灵活、更安全、更便宜。部署成本更低。

世界将是开源的。我们将拥有开源AI平台。几年后，它们可能会以分布式方式进行训练，因此它们不会完全由单一公司控制。我认为专有引擎不会像今天这样重要，因为开源平台在性能方面正在迎头赶上。然后我们知道，像LLAMA这样的经过微调的开源引擎总是比未经微调的通用顶级模型效果更好。它能够使生态系统发展壮大。如果你是一家初创公司，最好使用一个资源引擎并针对垂直应用进行微调，而不是使用API，因为你可以更好地为客户构建定制产品。这是第一点。第二点是，如果你真的希望这项技术能够民主化并被所有人使用，最终会使用智能眼镜等设备，但首先是智能手机。

人们的智力将转向与我们今天训练的不同的任务。因为我们今天试图做的很多事情都将由AI系统完成。因此，我们将专注于其他任务。例如，不是做事情，而是决定做什么或弄清楚做什么。好的？这是两件不同的事情。想想公司里一个被告知做什么就做什么的低层员工，和一个必须制定战略、思考做什么，然后告诉别人做什么的高层管理人员之间的区别。我们都将成为老板。我们都将像那些高层管理人员一样。我们将告诉我们的AI系统做什么，但我们不必亲自动手。谢谢。

它是一个技能的集合，以及快速学习新技能的能力，或者是不需要学习就能解决问题的能力。在人工智能领域，这被称为“零样本学习”（zero-shotlearning）。你知道，你面对一个新问题，你可以思考一段时间，你可能从未遇到过类似的问题，但你仅仅通过思考和运用你对情况的心理模型就能解决它。这就是零样本学习。你并没有学习新的技能，你只是从零开始解决问题。所以，这三者的结合，即你已拥有的许多技能、解决问题和完成任务的经验、能够快速学习新任务（只需几次尝试），以及下一步能够零样本解决新问题而无需学习任何新东西，这三者的结合才是真正的智能。

上一篇：1982年高考题：缩句：小丽的妈妈穿着裙子的样子真美啊！下一篇：12月10日 (7)