智能体发展史

符号主义

认为人类的智能，逻辑推理能力可以被形式化的符号所复现。它通过符号表示外部世界，通过逻辑推理规划行动。

通过构建知识库、推理规则、用户界面构成专家系统。

根本性挑战

由专家构建知识库，成本高昂，人类很多规则难以表达成 if-then 模式
庞大的常识系统必须被明确编码才能使用
完全依赖预设的规则，遇到规则以外或者变化无法感知变通

系统遵循自上而下的方式期望构建一个全知全能的中央处理器，根据一套统一的逻辑规则来处理信息和做出决策。

心智社会

马文·明斯基（Marvin Minsky）在《心智社会》提出

不再将心智视为一个金字塔式的层级结构，而是将其看作一个扁平化的、充满了互动与协作的”社会”。将简单的、无心的小智能体组织起来，形成功能强大的机构。它们之间通过去中心化的激活与抑制信号相互影响，形成动态的控制流。

涌现（Emergence）

复杂的、有目的性的智能行为，并非由某个高级智能体预先规划，而是从大量简单的底层智能体之间的局部交互中自发产生的。这些智能体中没有一个可以拥有整个任务的全局规划，而当这个由无数“无心”的智能体组成的社会，通过简单的激活和抑制规则相互作用时，一个看似高度智能的行为，就自然而然地涌现了出来。

如果智能无法被完全设计，那么它是否可以被学习出来？

人工智能的“学习”时代，其核心目标不再是手动编码知识，而是构建能从经验和数据中自动获取知识与能力的系统。

联结主义

模仿大脑神经网络结构，自下而上的方法。（详见神经网络）

分布式知识：知识以连接权重的形式，分布式的存储在大量简单的处理单元（人工神经元）的连接之间。整个网络的连接构成知识。

2、简单的处理单元：每个神经元只执行简单的计算，如接收来自其他神经元的加权输入，通过一个激活函数进行处理，然后将结果输出给下一个神经元。

3、通过学习调整权重：系统通过接触大量样本，根据某种学习算法（如反向传播算法）自动、迭代地调整神经元之间的连接权重，从而使得整个网络的输出逐渐接近期望的目标。

符号主义试图将人类的知识显式地编码给机器，而联结主义则试图创造出能够像人类一样学习知识的机器。

联结主义主要解决了感知问题（例如，“这张图片里有什么？”）

但智能体更核心的任务是进行决策

行为主义（Behaviorism）——基于强化学习的智能体

通过智能体与环境的直接交互，在“试错”中学习如何最大化其长期收益。

强化学习最终赋予了智能体从交互中学习决策策略的能力

AlphaGo（智能体）通过观察棋盘的当前布局（环境状态），决定下一步棋的落子位置（行动）。一局棋结束后，根据胜负结果，它会收到一个明确的信号：赢了就是正向奖励，输了则是负向奖励。通过数百万次这样的自我对弈，AlphaGo不断调整其内部策略，逐渐学会了在何种棋局下选择何种行动，最有可能导向最终的胜利。这个过程完全是自主的，不依赖于人类棋谱的直接指导。

基本构成要素

智能体（Agent）：学习者和决策者。在AlphaGo的例子中，就是其决策程序。
环境（Environment）：智能体外部的一切，是智能体与之交互的对象。对AlphaGo而言，就是围棋的规则和对手。
状态（State, S）：对环境在某一时刻的特定描述，是智能体做出决策的依据。例如，棋盘上所有棋子的当前位置。
行动（Action, A）：智能体根据当前状态所能采取的操作。例如，在棋盘的某个合法位置上落下一子。
奖励（Reward, R）：环境在智能体执行一个行动后，反馈给智能体的一个标量信号，用于评价该行动在特定状态下的好坏。例如，在一局棋结束后，胜利获得+1的奖励，失败获得-1的奖励。

感知-行动-学习循环迭代

智能体观察当前的状态

2、基于状态，根据一个策略，执行行动

3、环境接收到行动后转为另一个新状态，同时环境反馈给智能体一个即时奖励

4、智能体根据反馈（新状态、奖励）更新优化内部的策略，这个过程就是学习

学习目标：

最大化从当前时刻开始到未来的累积奖励（回报）

有时为了获得未来更大的奖励，需要牺牲当前的即时奖励

预训练与微调

如何让智能体在开始学习具体任务前，就先具备对世界的广泛理解？

在自然语言处理（NLP）中,率先进行了大规模数据的预训练。

预训练：将全网海量数据通用语料库，通过自监督学习的方式训练出一个超大规模的神经网络模型，学习语言本身内在的规律、语法结构、事实知识以及上下文逻辑。比如目标是：预测下一个词

2、微调：针对特定的下游任务，使用少量该任务的标注数据对这个模型微调，让模型适应对应任务

通过在数万亿级别的文本上进行预训练，大型语言模型的神经网络权重实际上已经构建了一个关于世界知识的、高度压缩的隐式模型。

大语言模型（LLM)

当模型的规模（参数量、数据量、计算量）跨越某个阈值后，它们开始展现出未被直接训练的、预料之外的涌现能力（Emergent Abilities），比如：

上下文学习（In-context Learning）：无需调整模型权重，仅在输入中提供几个示例（Few-shot）甚至零个示例（Zero-shot），模型就能理解并完成新的任务。
思维链（Chain-of-Thought）推理：通过引导模型在回答复杂问题前，先输出一步步的推理过程，可以显著提升其在逻辑、算术和常识推理任务上的准确性。

从而LLM演变成具备海量知识库和通用推理引擎的组件

智能体和环境的交互

LLM驱动的智能体通过一个由多个模块协同工作的、持续迭代的闭环流程来完成任务。

形成感知、思考、行动、观察循环迭代

工作步骤

感知模块 (Perception Module) ：它通过传感器从外部环境 (Environment) 接收原始输入，形成**观察 (Observation)。**这些观察信息（如用户指令、API返回的数据或环境状态的变化）是智能体决策的起点，处理后将被传递给思考阶段。

2、思考 (Thought) ：规划模块 (Planning Module) 和大型语言模型 (LLM)

2.1. 规划模块先接收观察信息，进行高级策略的制定。通过反思 (Reflection) 和自我批判 (Self-criticism) 等机制，将宏观目标分解为更具体、可执行的步骤。

2.2、推理与决策：随后，作为中枢的LLM 接收来自规划模块的指令，并与记忆模块 (Memory) 交互以整合历史信息。LLM进行深度推理，最终决策出下一步要执行的具体操作，这通常表现为一个工具调用 (Tool Call)。

3、行动 (Action) ：决策完成后，便进入行动阶段，由执行模块 (Execution Module) 负责。LLM生成的工具调用指令被发送到执行模块。该模块解析指令，从工具箱 (Tool Use) 中选择并调用合适的工具（如代码执行器、搜索引擎、API等）来与环境交互或执行任务。这个与环境的实际交互就是智能体的行动 (Action)。

4、观察 (Observation) 与循环：行动会改变环境的状态，并产生结果。

工具执行后会返回一个工具结果 (Tool Result) 给LLM，这构成了对行动效果的直接反馈。同时，智能体的行动改变了环境，从而产生了一个全新的环境状态。
这个“工具结果”和“新的环境状态”共同构成了一轮全新的观察 (Observation)。这个新的观察会被感知模块再次捕获，同时LLM会根据行动结果更新记忆 (Memory Update)，从而启动下一轮“感知-思考-行动”的循环。

现代 Agent 的核心机制：Agent提示词工程中的 ReAct 模式实现了感知-思考-行动循环；RAG 为 Agent 提供了外部知识获取能力；智能问数系统设计思想是 Agent 在数据分析领域的具体应用。

AI Agent典型技术栈全貌(2024-11)

智能代码审查助手

设计一个”智能代码审查助手”，它能够自动审查代码提交（Pull Request），概括代码的实现逻辑、检查代码质量、发现潜在BUG、提出改进建议。

莫莫绵的博客

探索

智能体发展史

符号主义

根本性挑战

心智社会

涌现（Emergence）

联结主义

行为主义（Behaviorism）——基于强化学习的智能体

基本构成要素

感知-行动-学习循环迭代

预训练与微调

大语言模型（LLM)

智能体和环境的交互

工作步骤

AI Agent典型技术栈全貌(2024-11)

智能代码审查助手

知识图谱

目录

反向链接

莫莫绵的博客

探索

智能体发展史

符号主义

根本性挑战

心智社会

涌现（Emergence）

联结主义

行为主义（Behaviorism）——基于强化学习的智能体

基本构成要素

感知-行动-学习 循环迭代

预训练与微调

大语言模型（LLM)

智能体和环境的交互

工作步骤

AI Agent典型技术栈全貌(2024-11)

智能代码审查助手

知识图谱

目录

反向链接

感知-行动-学习循环迭代