Introduction to Agents

下面是一份 《Introduction to Agents》全篇中文直译 （含目录、致谢、图表标题与脚注），并保留关键专业术语英文原文（如 Agent Ops, RAG, Orchestration Layer, ADK, MCP, A2A, HITL, OpenTelemetry 等）以便核对与检索。若原文为品牌名、专有名词或协议名称，均以英文保留或中英并列。为便于参考，我在各主要章节处附上来源标记，并在需要处指明原文页码与图号。

原文： Introduction to Agents

封面（第 1 页）

Introduction to Agents（智能体白皮书）

作者：Alan Blount, Antonio Gulli, Shubham Saboo, Michael Zimmermann, Vladimir Vuskovic

前言与致谢（第 2 页）

Acknowledgements（致谢）

内容贡献者（Content contributors）：Enrique Chan, Mike Clark, Derek Egan, Anant Nawalgaria, Kanchana Patlolla, Julia Wiesinger

策展与编辑（Curators and editors）：Anant Nawalgaria, Kanchana Patlolla

设计（Designer）：Michael Lanning

目录（第 3–5 页）

From Predictive AI to Autonomous Agents（从预测式 AI 到自主智能体）
Introduction to AI Agents（AI 智能体简介）
The Agentic Problem-Solving Process（智能体问题求解流程）
A Taxonomy of Agentic Systems（智能体系统分类法）
- Level 0: The Core Reasoning System（核心推理系统）
- Level 1: The Connected Problem-Solver（连接式问题求解者）
- Level 2: The Strategic Problem-Solver（战略型问题求解者）
- Level 3: The Collaborative Multi-Agent System（协作式多智能体系统）
- Level 4: The Self-Evolving System（自演化系统）
Core Agent Architecture: Model, Tools, and Orchestration（核心架构：模型、工具与编排）
- Model: The “Brain” of your AI Agent（模型：智能体的“大脑”）
- Tools: The “Hands” of your AI Agent（工具：智能体的“手”）
- Retrieving Information: Grounding in Reality（信息检索与现实对齐）
- Executing Actions: Changing the World（执行行动：改变世界）
- Function Calling: Connecting Tools to your Agent（函数调用：连接工具与智能体）
- The Orchestration Layer（编排层）
Core Design Choices（核心设计抉择）
- Instruct with Domain Knowledge and Persona（以领域知识与人格进行约束/指令）
- Augment with Context（用上下文增强）
- Multi-Agent Systems and Design Patterns（多智能体系统与设计模式）
Agent Deployment and Services（部署与服务）
Agent Ops: A Structured Approach to the Unpredictable（Agent 运维：结构化应对不确定性）
- Measure What Matters: Instrumenting Success Like an A/B Experiment（衡量要紧之处）
- Quality Instead of Pass/Fail: Using a LM Judge（用 LM 评审衡量质量）
- Metrics-Driven Development: Your Go/No-Go for Deployment（指标驱动的上线决策）
- Debug with OpenTelemetry Traces: Answering “Why?”（用 OpenTelemetry Trace 调试）
- Cherish Human Feedback: Guiding Your Automation（重视人类反馈）
Agent Interoperability（互操作性）
- Agents and Humans（人与智能体）
- Agents and Agents（智能体与智能体）
- Agents and Money（智能体与金钱）
Securing a Single Agent: The Trust Trade-Off（单体安全：信任的权衡）
- Agent Identity: A New Class of Principal（智能体身份）
- Policies to Constrain Access（约束性策略）
- Securing an ADK Agent（保护 ADK 智能体）
Scaling Up from a Single Agent to an Enterprise Fleet（从单体到企业车队）
- Security and Privacy（安全与隐私）
- Agent Governance（治理与控制平面）
- Cost and Reliability（成本与可靠性）
How agents evolve and learn（智能体如何演进与学习）
- Simulation and Agent Gym（仿真与 Agent Gym）
Examples of advanced agents（高级示例）
- Google Co-Scientist
- AlphaEvolve Agent
Conclusion（结论）
Endnotes（注释/参考）

从预测式 AI 到自主智能体（第 6–7 页）

多年来，AI 的重点在于执行被动、离散任务：回答问题、翻译文本、依据 prompt 生成图像。这一范式虽强大，却在每一步都需要人工指令。我们正经历一次转变：从“只会预测/生成内容”的 AI，走向能够**自主地解决问题与执行任务（autonomous problem‑solving and task execution）**的新型软件。

智能体（Agent）并非只是在静态工作流中的 AI 模型，而是一个完整应用：它会制定计划并采取行动以达成目标。它把语言模型（LM）的推理能力与实际行动能力（工具/函数/API）结合，使其能处理模型本身无法独立完成的复杂多步任务；关键能力在于无需人在每一步指引也能自行判断下一步。

本文件是五部分系列中的第一部分，为从 PoC 走向生产级 agentic 系统的开发者、架构师与产品负责人提供正式指南。它的重点包括核心剖析（Model/Tools/Orchestration）、能力分级（从连接式求解到多智能体协作）、架构设计与生产化（Agent Ops），以帮助构建、部署与治理能“reason–act–observe”以达成目标的新一代智能应用。

AI 智能体简介（第 8–10 页）

我们常以拟人化词语描述人机交互（如 think, reason, know），但“语义上的知道”与“为最大化奖励而高概率输出”是不同概念——尽管 99.X% 的时候结果相同。

最简定义：AI Agent 是由模型（Model）、工具（Tools）、编排层（Orchestration Layer）与运行时服务（Runtime Services）组成的系统，借助LM‑in‑the‑loop来完成目标。

Model（“大脑”）：LM/基础模型作为推理引擎，处理信息、评估选项并做出决定。Agent 成为 LM **输入上下文（context window）**的终极策展人。
Tools（“双手”）：API、代码函数与数据存取（数据库、向量库）连接外部世界。Agent 负责计划使用何种工具、执行工具，并把结果纳入下一次 LM 调用的上下文。
Orchestration Layer（“神经系统”）：负责规划、记忆（state/memory）与推理策略，用 Chain‑of‑Thought 或 ReAct 将复杂目标拆解为步骤，决定何时“思考”与何时“用工具”。也负责给 Agent “记忆”。
Deployment（“身体与双腿”）：生产部署让 Agent 成为可靠、可访问的服务（带监控、日志、管理），通过 UI 或 Agent‑to‑Agent（A2A） API 供人或其他 Agent 调用。

开发范式的转变：传统开发者像“砌砖工”写死每一步；Agent 开发者更像“导演”，负责设置场景（指令与提示）、挑演员（工具与 API）、配上下文（数据），引导这个“演员”交付预期表现。LM 的灵活性也是稳定性难题：要让它“只做一件事”很难，因而需要context engineering（上下文工程）。Agent Ops 以可观测性（traces/logs） 帮助调试与优化。

智能体问题求解流程（第 10–13 页）

Agent 的核心是一种持续的循环，可概括为五步：

Get the Mission（获得任务）：来自用户或自动触发的高层目标（如“为团队安排大会差旅”）。
Scan the Scene（扫描场景）：编排层收集上下文：请求文本、短期/长期记忆、工具可达的信息等。
Think It Through（推理规划）：模型驱动的思考环节，将任务与场景对齐并制定计划（常为链式推理）。
Take Action（执行行动）：按计划调用工具（API/函数/数据库查询等）。
Observe and Iterate（观测并迭代）：把工具返回加入上下文/记忆，回到思考环节直至完成任务。

图 1（第 12 页） 展示了该“Think–Act–Observe”流程示意。以客服智能体回答“订单 #12345 在哪？”为例：

先于“Think”阶段拟定多步计划：识别（查询内部订单）→ 追踪（取快递单号并查外部承运商 API）→ 报告（综合结果答复）。
执行 find_order(“12345”) → 观测到包含 tracking number“ZYX987”；
执行 get_shipping_status(“ZYX987”) → 观测状态“Out for Delivery”；
综合生成答复：“您的订单 #12345 正在派送中（Out for Delivery）”。

智能体系统分类法（第 14–18 页）

图 2（第 14 页） 给出分级金字塔：

Level 0：核心推理系统（仅 LM，无工具/记忆/外界交互）。长处是广博训练知识；短板是无实时感知。
Level 1：连接式问题求解者（连上外部工具）。能通过检索、搜索或 RAG 获取实时事实并作答。
Level 2：战略型问题求解者（context engineering 成为关键）。能选择/打包/管理每一步所需的最相关信息并规划多步任务。
Level 3：协作式多智能体系统（一支专家团队协作完成复杂业务流程；Agent 把其他 Agent 当作工具）。
Level 4：自演化系统（能识别自身能力缺口并自主创建新工具/新智能体来填补）。

核心架构：模型、工具与编排（第 19–22 页）

模型：智能体的“大脑”

选择 LM 关乎推理能力、成本与延迟。不要只看学术基准；应基于业务目标设定评测（如在私有代码库或特定表单上测试），并在质量–速度–价格间权衡。可以采用多模型路由：用强模型（如 Gemini 2.5 Pro）做复杂规划，用快模型（如 Gemini 2.5 Flash）做分类、摘要等高频小任务。多模态可用原生多模态模型，或专用工具（Cloud Vision/Speech‑to‑Text）+ 语言模型的“先转文本再推理”路径。模型更新迅速，需以 Agent Ops + CI/CD 持续评估与迭代。

工具：智能体的“手”

信息检索（RAG/NL2SQL）：让智能体在发言前“先查再答”，以事实对齐现实、降低幻觉。
执行行动（API/代码执行）：发送邮件、建日程、改工单；在沙箱中生成与运行代码（SQL/Python）以计算/转换。
以人为环（HITL）：例如 ask_for_confirmation() / ask_for_date_input()，在关键决策处引入人类。

函数调用（Function Calling）

要可靠地用工具，需清晰契约与安全编排。可用 OpenAPI 描述工具 schema，让模型生成正确参数并解析响应；也可用 Model Context Protocol（MCP） 做便捷发现与连接。部分模型有原生工具（如 Gemini 的原生 Google Search）。

编排层 & 核心设计抉择（第 22–26 页）

Introduction to Agents-2.png

编排层（The Orchestration Layer）

相当于“中枢神经系统”，负责驱动 Think–Act–Observe 循环、管理状态机与开发者的规则逻辑，并产出详细 traces/logs用于可观测性与调试。

核心设计抉择

自治程度：从确定性工作流 + LM 辅助到LM 驾驶座的高度自适应。
实现方式：无代码适合快启；代码优先（如 Google Agent Development Kit, ADK）能获得深度控制与可集成性。
框架要求：开放、可插拔（防 vendor lock‑in）；精细控制（规则治理 LM 的非确定性）；重视可观测性（能追踪提示、工具选择、参数与观测结果）。

指令与人格（Persona）

用系统提示（system prompt）为智能体立“宪法”：角色、语调、输出 schema、约束与何时为何用工具，并附示例。

记忆与上下文增强（Context & Memory）

短期记忆：会话历史/状态（动作–观测对）。
长期记忆：通常以RAG + 向量库/搜索实现，可查询自身历史与用户偏好以供个性化体验。

多智能体与设计模式

把复杂流程拆分给专精智能体，便于构建/测试/维护。

Coordinator（协调者）模式：处理动态/非线性任务，由“经理”智能体拆分子任务并路由。
Sequential（顺序链）模式：线性装配线式输出传递。
Iterative Refinement（迭代打磨）模式：生成者与批评者循环优化质量与安全。**图 3（第 25 页）**示意此模式。
HITL 模式：高风险任务上引入人类审批。

部署与服务（第 26–27 页）

把本地 Agent 部署到常驻服务器，供人和其他 Agent 使用。生产环境需会话/记忆持久化、日志/监控、隐私/合规/数据驻留等。可选：

Vertex AI Agent Engine 等平台化托管；
容器化（Docker）+ Cloud Run/GKE 等标准运行时。早期探索可使用框架自带的一键部署；走向安全与生产就绪需CI/CD 与自动化测试。**图 4（第 27 页）**展示了 Vertex AI Agent 架构界面。

Introduction to Agents-3.png

Agent Ops：结构化应对不确定性（第 27–31 页）

从确定性软件转向随机性智能体，传统单元测试“output == expected”已不适用；语言质量往往需要LM 充当评审（LM as Judge）。**图 5（第 28 页）**展示了 DevOps/MLOps/GenAIOps 的关系。

Introduction to Agents-4.png

衡量要紧之处（像 A/B 实验一样设仪表）

定义业务导向 KPI：目标完成率、用户满意度、任务延迟、每交互成本，以及对营收/转化/留存等业务指标的影响，并以此驱动观测与优化。

用 LM 评审衡量质量（而非简单通过/失败）

以预设评分细则（rubric）让强模型评估输出：是否正确、是否有事实依据、是否遵守指令等。基于黄金数据集自动评估，但仍需领域专家复核。

指标驱动的开发与上线

版本改动跑完整评测集，与生产基线对比质量/延迟/成本/成功率等；可用A/B 灰度降低上线风险。

用 OpenTelemetry Trace 回答“为什么？”

当指标下滑或有缺陷上报，需要追因：Trace 记录了完整执行轨迹（提示、内部推理_如可用_、工具选择、参数、原始观测数据）。Trace 适合定位根因，关键信息可转化为指标。

重视人类反馈

用户的“踩”与缺陷报告是最有价值的数据：将其回溯到分析平台形成洞见与告警，并把复现出的场景加入评测集，形成免疫同类错误的机制闭环。

互操作性（第 31–34 页）

人与智能体（Agents and Humans）

最常见是UI 交互：从简易聊天到结构化 JSON驱动的富前端。HITL 包含意图澄清、目标扩展、确认等。

Computer Use 工具让 LM 接管 UI 操作（导航、点击、表单预填等），或借助 MCP UI / AG UI / A2UI 等由工具控制/事件驱动/消息驱动生成 UI 的方式反向改变 UI。

实时多模态（live mode） 让语音双向流式与可打断交互成为可能（如 Gemini Live API），并结合摄像头/麦克风以低延迟产生更自然的人机协作。

智能体与智能体（Agents and Agents）

企业内不同团队将构建不同专精智能体。为解决发现与通信的通用性问题，提出 Agent‑to‑Agent（A2A）协议：

通过 Agent Card（数字名片，JSON）发布能力、端点与凭证，便于标准化发现；
通信使用任务导向异步模式，支持长连接流式进度，从而支撑 Level 3 的协作式多智能体系统。

智能体与金钱（Agents and Money）

当 Agent 代表用户进行交易/谈判/支付时，需要信任层：

Agent Payments Protocol（AP2）用加密签名的委托（mandate）建立不可抵赖审计轨迹；
x402 借助 HTTP 402 Payment Required 实现机器对机器的小额支付（如 API 计次付费）。

单体安全：信任的权衡（第 34–38 页）

为提升实用性必须授予权能（自主决策、执行工具），但权能带来风险（越权操作、敏感信息泄露）。不能只依赖模型判断，需纵深防御（defense‑in‑depth）：

确定性护栏：模型外的硬规则/策略引擎（如 >$100 的采购需阻断或二次确认）。
推理式防御：用小型守卫模型或对抗训练检测风险/违规计划。

智能体身份（Agent Identity：新的主体类型）

Introduction to Agents-5.png

除了用户（OAuth/SSO）与服务账户（IAM），Agent 是第三类主体，需具备可验证身份（如 SPIFFE），以便实施最小权限。不同 Agent 获得精细的读/写授权，限制潜在爆炸半径。文中给出了“主体类别×认证方式×说明”的对照表。

访问约束策略（Policies）

策略属于授权（AuthZ），需对Agent/工具/其他 Agent/可共享上下文/远端 Agent分别施权，以实现最小而相关的权限集合。

保护 ADK 智能体

分清用户账号、服务账号、智能体身份三类认证；在API 治理层定义约束策略；在工具/模型/子 Agent中内建护栏（即使 LM 产生错误计划也会被工具拒绝执行）。

ADK 提供 Callbacks/Plugins：如 before_tool_callback 在执行前校验参数或Gemini‑as‑a‑Judge（用低成本模型筛查注入/有害内容）。企业可选用Model Armor等托管安全层实时筛查注入、越狱、PII、恶意 URL等威胁。

从单体到企业车队（第 39–42 页）

Introduction to Agents-6.png 图 6（第 39 页）示意了安全与智能体的总体关系。随着Agent/工具在组织内扩张，会形成复杂的交互网络与数据流，需要更高阶治理与集中式控制平面。

安全与隐私（Hardening the Agentic Frontier）

平台应确保企业私有数据不被用于训练基础模型，并通过 VPC Service Controls 等措施隔离；需要输入/输出过滤作为“提示防火墙”；并提供如知识产权保障等合同层面承诺，以支撑生产部署信心。

Agent 治理：以控制平面取代蔓延（Sprawl）

建立统一网关作为运行时策略执行与集中治理的关口：

运行时策略：认证与授权、统一日志/指标/Trace，实现单一视图。
集中治理：借助注册中心（企业版应用商店）进行发现/复用/清点/版本化/发布审核与细粒度访问策略。

成本与可靠性（基础设施）

需要既可靠又经济：

按需缩扩容/scale‑to‑zero；
关键低延时工作负载可用Provisioned Throughput与 Cloud Run 99.9% SLA；
全面监控成本与性能，使 Agent 成为企业核心可靠组件。

智能体如何演进与学习（第 42–46 页）

真实世界在变（政策、技术、数据格式），Agent 若不能适应会**“老化”**。人工维护车队成本高，需让 Agent 在岗学习与演进：

运行时经验：会话日志、Traces、记忆、HITL 反馈等。
外部信号：新政策文件、法规更新、其他智能体的评审等。优化手段包括：
增强型上下文工程：持续优化提示、few‑shot 示例与检索内容。
工具优化与创造：识别能力缺口并获得/创建/修改工具（如自动写 Python/SQL）。还可重构多智能体模式或采用 RLHF 等。

示例（合规新规学习）：

查询智能体检索数据；报告智能体生成草稿；批评智能体用合规规则审阅，必要时升级到人类专家；学习智能体收集人类纠正并泛化为新规则或上下文。**图 7（第 45 页）**给出多智能体工作流示意。

仿真与 Agent Gym：下一前沿（第 46 页）

前述是在线（in‑line）学习。更先进的是离线优化平台——Agent Gym：

不在生产执行路径内，可使用任意 LM 与离线工具/云应用；
提供仿真环境，支持试错与压力测试；
调用合成数据生成器（含红队化、动态评估、批评智能体族）；
工具库可扩展（通过 MCP / A2A 接入）并能学习新概念并造工具；
面对“部落知识”类边界问题，连接领域专家提供指导。

高级示例（第 47–50 页）

Google Co‑Scientist（第 47–48 页）

作为虚拟科研合作者，Co‑Scientist 能系统性地探索问题空间：研究者给定目标与知识源，系统生成并评估新假设版图，并孵化一组协作智能体完成任务。

先将研究目标展开为项目计划；Supervisor 像项目经理一样分派任务给专精智能体并分配资源（算力等）；
智能体可长时间运行（数小时/天），在生成与评审的元循环中改进想法与评价方法。

Introduction to Agents-8.png **图 8（第 47 页）与图 9（第 48 页）**给出了系统与流程示意。

AlphaEvolve Agent（第 49–50 页）

AlphaEvolve 面向数理与计算机科学中的复杂算法问题，将 Gemini 的创造性代码生成与自动评估系统结合，以进化式流程循环：生成→评分→优胜继承。

成果示例：

提升 Google 数据中心、芯片设计与 AI 训练的效率；
发现更快的矩阵乘法算法；
为未解数学问题找到新思路。

Introduction to Agents-9.png

Introduction to Agents-10.png 特点：验证容易但搜索困难的问题更适合；输出为人类可读代码，透明可修改；专家通过优化评价指标与探索边界引导系统，避免“钻规则空子”。**图 10/11（第 49–50 页）**展示了设计系统与算法进化示意。

结论（第 51 页）

生成式 AI 智能体把 AI 从被动内容工具转向主动的自主问题求解伙伴。本文提供了从原型走向生产级的架构化蓝图：

把智能体拆解为Model（大脑）、Tools（双手）与Orchestration Layer（神经系统），在Think–Act–Observe循环中释放能力；
用分级分类为架构与产品决策定界；
开发者角色从“砌砖工”转为“架构师/导演”，成功关键不止在 prompt，而在工具契约、错误处理、上下文管理与全面评估；
以工程化纪律构建协作、能干、可适应的新团队成员。

注释与参考（第 52–54 页，原样译出，链接保留）

Julia Wiesinger, Patrick Marlow, 等（2024）“Agents”。可见：https://www.kaggle.com/whitepaper-agents
Antonio Gulli, Lavi Nigam, 等（2025）“Agents Companion”。可见：https://www.kaggle.com/whitepaper-agent-companion
Shunyu Yao 等（2022）“ReAct: Synergizing Reasoning and Acting in Language Models”。https://arxiv.org/abs/2210.03629
Wei, J., Wang, X. 等（2023）“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”。https://arxiv.org/pdf/2201.11903.pdf
同注 3。
https://www.amazon.com/Agentic-Design-Patterns-Hands-Intelligent/dp/3032014018
Shunyu Yao 等（2024）“τ‑bench: A Benchmark for Tool‑Agent‑User Interaction in Real‑World Domains”。https://arxiv.org/abs/2406.12045
https://artificialanalysis.ai/guide
https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/vertex-ai-model-optimizer
https://gemini.google/overview/gemini-live/
https://cloud.google.com/vision
https://cloud.google.com/speech-to-text
https://medium.com/google-cloud/genaiops-operationalize-generative-ai-a-practical-guide-d5bedaa59d78
https://cloud.google.com/vertex-ai/generative-ai/docs/agent-engine/code-execution/overview
https://ai.google.dev/gemini-api/docs/function-calling
https://github.com/modelcontextprotocol/
https://ai.google.dev/gemini-api/docs/google-search
https://google.github.io/adk-docs/
https://google.github.io/adk-docs/sessions/memory/
https://cloud.google.com/architecture/choose-design-pattern-agentic-ai-system
https://cloud.google.com/vertex-ai/generative-ai/docs/agent-engine/overview
https://cloud.google.com/kubernetes-engine/docs/concepts/gke-and-cloud-run
https://github.com/GoogleCloudPlatform/agent-starter-pack
Sokratis Kartakis（2024）“GenAI in Production: MLOps or GenAIOps?” https://medium.com/google-cloud/genai-in-production-mlops-or-genaiops-25691c9becd0
Guangya Liu, Sujay Solomon（2025.3）“AI Agent Observability – Evolving Standards and Best Practice”。https://opentelemetry.io/blog/2025/ai-agent-observability/
https://discuss.google.dev/t/agents-are-not-tools/192812
Damien Masson 等（2024）“DirectGPT: A Direct Manipulation Interface to Interact with Large Language Models”。https://arxiv.org/abs/2310.03691
MCP UI：https://mcpui.dev/
AG UI：https://ag-ui.com/
A2UI：https://github.com/google/A2UI
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api
https://saif.google/focus-on-agents
https://simonwillison.net/series/prompt-injection/
https://storage.googleapis.com/gweb-research2023-media/pubtools/1018686.pdf
https://spiffe.io/
https://openreview.net/pdf?id=l9rATNBB8Y
https://google.github.io/adk-docs/safety/
https://google.github.io/adk-docs/callbacks/design-patterns-and-best-practices/#guardrails-policy-enforcement
TKTK
https://cloud.google.com/security-command-center/docs/model-armor-overview
https://cloud.google.com/vertex-ai/generative-ai/docs/provisioned-throughput/overview
https://cloud.google.com/run/sla
https://github.com/CharlesQ9/Self-Evolving-Agents
Juraj Gottweis 等（2025）“Accelerating scientific breakthroughs with an AI co‑scientist”。https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
Deepak Nathani 等（2025）“MLGym: A New Framework and Benchmark for Advancing AI Research Agents”。https://arxiv.org/abs/2502.14499

译注与说明

为确保技术一致性与可检索性，文中关键术语采用中英并列或英文保留（如 Agent Ops, RAG, Orchestration Layer, ADK, MCP, A2A, HITL, OpenTelemetry, Provisioned Throughput）。
图示（“图 X，第 Y 页”）为原文图片/示意图对应位置的说明，供读者在原 PDF 中对照查阅。
本译文忠实于原文结构与措辞；如需术语表或双语对照版（中英并排），我可以在此基础上生成。

全文来源：《Introduction to Agents》PDF（共 54 页）。