AI项目实战（2）起点：在动手之前，先看清全图

本章是全书的「技术地图」。它不写代码，但会帮你建立一个清晰的认知框架——
我们到底要解决什么问题、用哪些技术手段、沿什么路线进化。
读完之后，你会知道后面每一个项目在「全局版图」中处于什么位置，为什么它出现在那里。

如果你已经读过上一本理论篇，本章可以快速浏览。如果你是从这一本开始，本章是必读的。

开篇：一个真实的下午

先讲个真事。

某公司运营小李，下午三点收到老板一条消息：「分析一下上个月广告投放数据，明天开会要用。」换作以前，小李要登录广告后台、导数据、开 Excel、做透视表、查行业经验、再写成报告，断断续续忙到晚上九点。

这次他试着把任务丢给了一个刚搭好的 AI Agent。他只打了一句话：

帮我分析上个月广告投放数据，找出问题，生成优化建议报告。

然后他去倒了杯咖啡。回来时，屏幕上已经躺着一份分章节、带数据、有建议的报告——还顺手提醒他：「计划 B 的 ROI 是负的，建议先暂停。」

小李愣了一下：它什么时候学会干这个的？

这个问题，正是这本书要回答的。一个大语言模型，本来只会「文字接龙」——你给一句话，它接一句话。它不会上网、不会读文件、不会算数、记不住昨天的事。可就在你倒杯咖啡的工夫，它却能像个老练的运营一样，把一整套活儿干完。

秘密不在于模型变聪明了，而在于我们一层一层地给它装上了手脚、记忆、工具和队友。这本书的十个项目，就是这条「进化之路」上的十个里程碑。

而在踏上这条路之前，我们得先看清整张地图。

1.1 全书主线：从单兵到团队

回到小李的那个下午。如果让一个「裸」的大模型直接干这活，它会立刻露馅：它不知道「上个月」是哪个月、读不到你的广告后台、算不对 ROI、更不知道什么算「问题」。它顶多凭记忆编一份听起来头头是道、实则全是 hallucination（幻觉）的报告。

所以真正能干活的，从来不是一个孤零零的模型，而是一个被层层武装起来的系统。我们不妨把这个武装过程，想象成「培养一个新员工」：

%%{init: {'theme':'base','flowchart':{'useMaxWidth':true,'htmlLabels':true}}}%%
graph LR
    S1["🛠️ 单工具 Agent
会用一种工具"] --> S2["🔧 多工具 Agent
会选工具、组合使用"]
    S2 --> S3["🔄 循环 Agent
会想-做-看-再想"]
    S3 --> S4["📚 知识 Agent
会查资料、引经据典"]
    S4 --> S5["🧠 自主 Agent
会规划、有记忆"]
    S5 --> S6["🤝 Multi-Agent
会分工协作"]

    classDef s fill:#e3f2fd,stroke:#1976d2,stroke-width:2px,color:#0d47a1
    class S1,S2,S3,S4,S5,S6 s

刚入职，他啥也不会，你先教他用一种工具（比如查订单系统）——这是「单工具 Agent」。
熟练了，你给他一抽屉工具，他得学会挑哪个、怎么组合——「多工具 Agent」。
任务变复杂，他得边做边想：查一步、看结果、再决定下一步——「循环 Agent」。
光会动手不够，遇到公司内部规矩，他得会翻资料、引经据典——「知识 Agent」。
再进一步，你扔给他一个模糊目标，他能自己拆任务、记得你的偏好——「自主 Agent」。
最后，活儿一个人干不过来，他学会拉团队分工——「Multi-Agent」。

这条进化线就是全书的主线。十个项目沿着它依次展开：

阶段	章节	项目	我们要让 Agent 学会什么
单兵	第 3 章	智能客服	会用工具（Tool）+ 会"好好说话"（Prompt）
单兵	第 4 章	知识库问答	会查资料（RAG），引经据典、对抗幻觉
单兵	第 5 章	代码审查	会多轮循环（Harness）+ 把经验打包（Skill）
单兵	第 6 章	数据分析	会标准接入外部系统（MCP）
单兵	第 7 章	视频生成	会编排多模态工具
单兵	第 8 章	一站式代码开发	会写-测-修的完整闭环
团队	第 9 章	内容创作平台	会分工协作（Multi-Agent）
团队	第 10 章	研究分析平台	会并行研究 + 辩论 + 综合
团队	第 11 章	个人助理	会记忆、会多项技能
集大成	第 12 章	自主任务规划	全能力融合

💡 一个提醒：这张表里每个项目都不是孤立的「Demo」。它们是同一条路上的不同站点——前一个项目教的能力，后一个项目会默认你已经会了。所以强烈建议按顺序读，哪怕快速过一遍。跳着读的人，往往会在第六章困惑「它怎么突然就会多步循环了」，其实那只是第五章练过的本事。

接下来的十四个章节，每一章都是在这条主线上的一步。

1.2 核心概念速览：八张拼图，一张全景图

在动手写代码之前，我们需要先认识这八张 “拼图”——它们就是全书要教你的全部核心技术。每个概念我们先用一句话抓住本质，然后在后面的项目里反复实践、逐步加深理解。

拼图 1：大模型（LLM）—— Agent 的大脑

大语言模型是 Agent 的 “大脑”：理解用户意图、推理下一步该做什么、生成回复。但纯大模型天生有三件事做不了：

不能行动（只能输出文字，不能上网、不能读文件）
没有记忆（关掉对话全忘）
知识会过时（训练完了就不再更新）

我们后面所有的技术，本质上都是在给这个大脑 装补丁——让它能做事、记得住、查得着。但补丁不能乱打。下面这八张「拼图」，是业界摸索出来的、公认好用的八块补丁。我们先一眼看懂每块补丁要补什么缺口，等到后面的项目里亲手缝上去，你就彻底明白了。

拼图 1：大模型（LLM）—— Agent 的大脑

大语言模型是 Agent 的 “大脑”：理解用户意图、推理下一步该做什么、生成回复。但纯大模型天生有三件事做不了：

不能行动（只能输出文字，不能上网、不能读文件）
没有记忆（关掉对话全忘）
知识会过时（训练完了就不再更新）

我们后面所有的技术，本质上都是在给这个大脑 装补丁——让它能做事、记得住、查得着。

拼图 2：Prompt 工程—— 学会 “好好说话”

同样一个博学的大脑，你问「什么是期权」和问「你是 15 年经验的交易员，请用买股票打比方，给完全不懂金融的新手讲讲期权」——答案质量天差地别。Prompt 工程研究的就是怎么把话说到位：角色设定、任务描述、举几个例子（Few-shot）、让它一步步想（思维链）。

本质：不改动模型本身，只优化输入，把模型能力压榨到极致。这是成本最低、见效最快的一块补丁。

拼图 3：Tool / Function Calling—— 给大脑装手脚

模型不能上网、不能查数据库、不能发邮件。但你不能要求它「学会」这些——它就是个文字机器。怎么办？换个思路：告诉它「你有一个叫 search_web 的工具，需要查东西就喊我，我替你执行」。模型于是输出一段结构化的「调用请求」，外部程序真正执行后，把结果喂回去。

本质：模型不自己执行，而是 表达调用意图，由外部程序真正动手。它不会变成程序员，但它学会了「求助」。

拼图 4：RAG（检索增强生成）—— 给大脑接上外部图书馆

模型知识停在训练那天，也不知道你公司的内部规章。更要命的是，它不知道时不会说「不知道」，而是会一本正经地编——这就是令所有 AI 应用头疼的「幻觉」。

RAG 的思路朴素得惊人：提问之前，先把相关资料从知识库里搜出来，和问题一起递给模型，让它看着资料回答。好比把闭卷考试改成开卷考试——学生不用背，翻到那一页照着抄就行，既准又有出处。

本质：检索 + 生成，用外部知识库弥补模型的知识盲区，同时压制幻觉。

拼图 5：Harness（运行外壳）—— 让大脑 “循环” 起来

查个天气，模型调一次工具就够了。但要它「整理一个项目里所有旧 API 并改掉」，就得：先搜文件、再读内容、再改、再跑测试、失败再改……这是个「想一步、做一步、看结果、再想下一步」的循环。单次问答的模型扛不住这种活。

Harness 就是那个驱动模型反复跑「思考 → 行动 → 观察 → 再思考」循环的外壳程序。它像 Agent 的神经系统，把零散的「一问一答」缝合成「坚持把一件事干完」的能力。

本质：Agent Loop（智能体循环），是 Agent 的 “神经系统”。

拼图 6：MCP（模型上下文协议）—— 工具世界的 “USB 接口”

Tool 解决了「会用工具」，但很快冒出新麻烦：AI 应用有很多个，外部工具也有几百个，难道每个应用接每个工具都得单独写一套代码？那是 N×M 套对接的噩梦。

MCP 干的事，和当年 USB 一模一样——定一个标准接口，工具方只要做成「MCP Server」，任何支持 MCP 的应用都能即插即用，不用再为它单独写对接。

本质：AI 世界的统一工具接口标准，把 N×M 的乱局变成 N+M 的清爽。

拼图 7：记忆系统—— 让 Agent 不再 “失忆”

你昨天告诉助理「我对花生过敏」，今天再问它推荐菜，它却给你推了宫保鸡丁——这种「失忆」是纯大模型的硬伤。记忆系统分两层补这个缺口：短期记忆（这次任务的对话，放在上下文窗口里）和长期记忆（你的偏好、过往经验，存到外部，用时检索回来）。

有意思的是：长期记忆的底层实现，本质上就是拼图 4 的 RAG——把经验存进知识库，需要时检索。八块拼图在这里第一次「咬合」上了。

本质：让 Agent 的交互有连续性，能 “记住” 用户和过往经验。

拼图 8：Skill（技能）—— 把 “经验” 打包复用

最后一块。你花大力气教会 Agent「怎么做微信支付接入」，换一次对话它又忘了，又得从头教——这谁受得了。Skill 的办法是：把完成某类任务所需的方法论 + 工具 + 示例 + 资源打包成一个可复用单元，平时只放个「目录索引」，用到时才加载完整内容。Agent 一加载，瞬间「变身」专家。

本质：把 “做事方法论” 沉淀为可复用、可分享的模块，让经验不再随会话蒸发。

全景图：八张拼图如何协同

读完八张拼图，你可能还是觉得它们「各管各的」。别急，看这张全景图——它们是怎么咬合成一个完整 Agent 的：

%%{init: {'theme':'base','flowchart':{'useMaxWidth':true,'htmlLabels':true}}}%%
graph TD
    User["👤 用户：给出目标"] --> Prompt["✍️ Prompt 工程
把意图表达清楚"]
    Prompt --> Agent["🎯 Agent（运行在 Harness 之上）"]
    
    Agent --> Brain["🧠 大模型（大脑）"]
    Brain --> Loop["🔄 Harness 循环"]
    Loop --> Tools["🔧 Tool 工具调用"]
    Tools --> MCP["🔌 MCP 标准接入"]
    Tools --> RAG["📚 RAG 检索知识"]
    Brain --> Mem["💾 记忆系统"]
    Mem --> RAG
    Brain --> Skill["📖 Skill 技能"]
    
    Agent --> Result["✅ 交付结果"]

    classDef uN fill:#e3f2fd,stroke:#1976d2,stroke-width:2px,color:#0d47a1
    classDef pN fill:#fce4ec,stroke:#d81b60,stroke-width:2px,color:#880e4f
    classDef aN fill:#ede7f6,stroke:#5e35b1,stroke-width:3px,color:#311b92
    classDef cN fill:#e0f2f1,stroke:#00897b,stroke-width:2px,color:#004d40
    classDef tN fill:#e0f7fa,stroke:#00acc1,stroke-width:2px,color:#006064
    classDef rN fill:#e8f5e9,stroke:#43a047,stroke-width:2px,color:#1b5e20
    class User uN
    class Prompt pN
    class Agent,Brain aN
    class Loop,Mem cN
    class Tools,MCP,RAG,Skill tN
    class Result rN

1.3 技术基准：本书选型与官方建议

⚠️ 重要声明：以下内容在写作时（2026 年 6 月）已与官方文档核实。AI 框架迭代迅速，如遇 API 变化，请以各项目官方最新文档为准。

1.3.1 为什么选 LangChain v1.0 的 `create_agent`

市面上很多教程还在用 langgraph.prebuilt.create_react_agent，但根据 LangChain 官方 v1.0 文档（https://docs.langchain.com/oss/python/releases/langchain-v1），这个 API 已被标记为 deprecated（废弃）。

官方现在推荐统一使用 langchain.agents.create_agent：

“create_agent is the standard way to build agents in LangChain 1.0. It provides a simpler interface than langgraph.prebuilt.create_react_agent while offering greater customization potential by using middleware.”
—— 来源：LangChain v1 官方发布说明

本书全书统一使用 create_agent，不使用已废弃的 API。

1.3.2 全书技术栈一览

技术层	选型	说明
Agent 编排	LangChain v1.0 `create_agent`	官方推荐，内置 agent loop
复杂流程	LangGraph `StateGraph`	多 Agent、条件分支、循环
大模型	Claude（via `langchain-anthropic`）	长上下文、强推理、中文流畅
工具定义	`@tool` 装饰器	官方方式，docstring 即说明书
RAG 检索/索引	LangGraph + LlamaIndex	LangGraph 编排检索流程，LlamaIndex 负责索引与检索
向量库	ChromaDB	轻量、开箱即用、本地可跑
工具协议	MCP（via `langchain-mcp-adapters`）	`MultiServerMCPClient` 接入
记忆	LangGraph Checkpointer（短期） + 向量库（长期）	官方内置 + RAG
后端	FastAPI	统一 API 入口，支持 SSE 流式
前端	React + Vite	统一可视化管理台
部署	Docker Compose	一键启动前后端

1.3.3 关键 API 表单（已核对官方文档）

用途	导入路径	关键函数/类	出处
创建 Agent	`from langchain.agents import create_agent`	`create_agent(model, tools, system_prompt)`	LangChain v1 官方文档
定义工具	`from langchain.tools import tool`	`@tool` 装饰器	LangChain 官方文档
初始化模型	`from langchain.chat_models import init_chat_model`	`init_chat_model("anthropic:模型名")`	LangChain v1 官方文档
LangGraph 流图	`from langgraph.graph import StateGraph`	`StateGraph`	LangGraph 官方文档
MCP 接入	`from langchain_mcp_adapters.client import MultiServerMCPClient`	`MultiServerMCPClient`	langchain-mcp-adapters 官方 README
LlamaIndex 向量索引	`from llama_index.core import VectorStoreIndex`	`VectorStoreIndex.from_documents()`	LlamaIndex 官方文档
记忆（checkpointer）	`from langgraph.checkpoint.sqlite import SqliteSaver`	`SqliteSaver`	LangGraph 官方文档

1.3.4 版本锁定

本书代码基于以下大版本编写（详见仓库 requirements.txt）：

langchain >= 1.0.0
langgraph >= 1.0.0
langchain-anthropic >= 1.0.0
langgraph-checkpoint-sqlite >= 2.0.0
llama-index >= 0.12.0
langchain-mcp-adapters >= 0.1.0

1.4 统一工程模板：如何阅读后面的项目章节

从第 2 章开始，每个项目章节都采用固定的 七段式结构，不再单独说明：

%%{init: {'theme':'base','flowchart':{'useMaxWidth':true,'htmlLabels':true}}}%%
graph LR
    A["1. 诉求
主角想要什么"] --> B["2. 画个样子"]
    B --> C["3. 拆开看"]
    C --> D["4. 动手写"]
    D --> E["5. 跑一跑"]
    E --> F["6. 送上线"]
    F --> G["7. 回头看"]

    classDef s fill:#e3f2fd,stroke:#1976d2,stroke-width:2px,color:#0d47a1
    class A,B,C,D,E,F,G s

这不是为了套模板，而是因为——这就是真实工业界做一个 AI 项目的标准流程。读完十四章，你不仅会做技术，也会做产品、做项目。

1.5 阅读路径建议

根据你的背景和目标，可以选择不同的阅读路径：

路径	适合谁	建议
系统学习	想全面掌握 Agent 技术栈	从头到尾顺序读，每章都跑代码
快速上手	已有基础，想快速出成果	读第 1-2 章（基础+脚手架），选 3-4 个你感兴趣的项目
架构参考	技术负责人 / 架构师	重点看每章的「拆开看：怎么造出来」+ 第 14 章最佳实践
产品视角	产品经理 / 创业者	重点看每章的「PRD」+「功能设计书」，了解每个项目能做什么、边界在哪

1.6 回头看：学到了什么

这一章我们做了三件事：

确立了全书主线：从单兵到团队——让 AI Agent 从"会用工具"逐步进化到"能协作的智能体团队"。
快速过了一遍八张核心拼图：大模型、Prompt、Tool、RAG、Harness、MCP、记忆、Skill——以及它们如何协同工作。
建立了全书技术基准：基于 LangChain v1.0 官方推荐的 create_agent，统一技术栈，所有关键 API 已经过官方文档校对。

现在，你已经有了全书的「认知地图」。下一章，我们将把这个认知框架落地为实际可运行的工程代码——搭建一个能承载十个项目的通用脚手架。

📌 第 1 章（基础铺垫）到此结束。

接下来进入第 2 章：通用脚手架——我们将搭建贯穿全书的 AgentCore 基类、配置管理、统一 API 和前端管理台。

如果您喜欢此博客或发现它对您有用，则欢迎对此发表评论。也欢迎您共享此博客，以便更多人可以参与。如果博客中使用的图像侵犯了您的版权，请与作者联系以将其删除。谢谢！

《AI Agent 实战》系列 · 起点：在动手之前，先看清全图

开篇：一个真实的下午

1.1 全书主线：从单兵到团队

1.2 核心概念速览：八张拼图，一张全景图

拼图 1：大模型（LLM）—— Agent 的大脑

拼图 1：大模型（LLM）—— Agent 的大脑

拼图 2：Prompt 工程—— 学会 “好好说话”

拼图 3：Tool / Function Calling—— 给大脑装手脚

拼图 4：RAG（检索增强生成）—— 给大脑接上外部图书馆

拼图 5：Harness（运行外壳）—— 让大脑 “循环” 起来

拼图 6：MCP（模型上下文协议）—— 工具世界的 “USB 接口”

拼图 7：记忆系统—— 让 Agent 不再 “失忆”

拼图 8：Skill（技能）—— 把 “经验” 打包复用

全景图：八张拼图如何协同

1.3 技术基准：本书选型与官方建议

1.3.1 为什么选 LangChain v1.0 的 `create_agent`

1.3.2 全书技术栈一览

1.3.3 关键 API 表单（已核对官方文档）

1.3.4 版本锁定

1.4 统一工程模板：如何阅读后面的项目章节

1.5 阅读路径建议

1.6 回头看：学到了什么

特色标签

链友

开篇：一个真实的下午

1.1 全书主线：从单兵到团队

1.2 核心概念速览：八张拼图，一张全景图

拼图 1：大模型（LLM）—— Agent 的大脑

拼图 1：大模型（LLM）—— Agent 的大脑

拼图 2：Prompt 工程—— 学会 “好好说话”

拼图 3：Tool / Function Calling—— 给大脑装手脚

拼图 4：RAG（检索增强生成）—— 给大脑接上外部图书馆

拼图 5：Harness（运行外壳）—— 让大脑 “循环” 起来

拼图 6：MCP（模型上下文协议）—— 工具世界的 “USB 接口”

拼图 7：记忆系统—— 让 Agent 不再 “失忆”

拼图 8：Skill（技能）—— 把 “经验” 打包复用

全景图：八张拼图如何协同

1.3 技术基准：本书选型与官方建议

1.3.1 为什么选 LangChain v1.0 的 create_agent

1.3.2 全书技术栈一览

1.3.3 关键 API 表单（已核对官方文档）

1.3.4 版本锁定

1.4 统一工程模板：如何阅读后面的项目章节

1.5 阅读路径建议

1.6 回头看：学到了什么

特色标签

链友

1.3.1 为什么选 LangChain v1.0 的 `create_agent`