AI基础知识扫盲：从大模型到Skill与MCP

2026.06.04

技术

1.9k words 6 min

这篇文章面向刚开始接触 AI 应用开发的人，先不追求论文级严谨，而是把常见名词放在一张地图里：大模型到底是什么，Prompt 为什么重要，RAG、Agent、Tool Calling、Skill、MCP 分别解决什么问题。

1. 什么是 AI、大模型和 LLM

AI 是一个很大的概念，可以理解为让机器完成原本需要人类智能参与的任务，比如识别图片、理解语言、生成文本、做规划、写代码等。

大模型通常指参数规模很大、训练数据很广、具备通用能力的模型。今天大家经常说的 ChatGPT、Claude、Gemini、DeepSeek 等，主要属于大语言模型，也就是 LLM。

LLM 的核心能力是根据上下文预测和生成下一个 Token。Token 可以粗略理解为模型处理文本时的最小片段，可能是一个汉字、一个词、一段英文子词，甚至一个符号。

2. Prompt、上下文和 Token

Prompt 是你给模型的指令和材料。它不只是“问题”，还可以包含角色、目标、约束、示例、输出格式、背景资料。

上下文窗口是模型一次能看到的内容范围。你发给它的历史消息、文档、代码、图片说明、工具返回结果，都会占用上下文。上下文越清晰，模型越容易稳定发挥；上下文越脏，模型越容易答偏。

Token 和成本、速度、上下文容量都有关系。一次请求里输入和输出的 Token 越多，通常成本越高、响应越慢。

3. Embedding、向量数据库和 RAG

Embedding 是把文本、图片等内容转换成一组数字向量，让机器可以计算“语义相似度”。比如“报销流程”和“费用申请怎么走”字面不同，但语义相近，向量距离也会更近。

向量数据库负责存储这些向量，并支持相似度检索。常见用途是：把知识库切成小段，转成向量，用户提问时先检索相关片段，再把片段交给模型回答。

RAG 是 Retrieval-Augmented Generation，中文常叫“检索增强生成”。它的价值是让模型回答时参考外部资料，而不是只依赖训练时记住的知识。

一个简单 RAG 流程通常是：

把文档切分成小块。
为每个文档块生成 Embedding。
用户提问时，把问题也转成 Embedding。
在向量库中找出最相关的文档块。
把检索结果和问题一起交给 LLM。
LLM 基于资料生成答案，并尽量给出引用依据。

4. Tool Calling：让模型不只会说话

LLM 本身擅长理解和生成，但它不天然知道今天的天气、数据库里的最新订单，也不能直接替你发邮件、查库存、改工单。

Tool Calling 的作用是把外部能力包装成工具，让模型在需要时调用。工具可以是一个 API、一个数据库查询、一个脚本、一段业务服务。

例如用户问：“帮我查一下订单 A1001 的物流状态。”模型可以判断需要调用 get_order_shipping_status 工具，拿到真实结果后再组织成自然语言回复。

5. Agent：会规划和执行的一层

Agent 可以理解为“模型 + 工具 + 记忆 + 执行循环”的组合。它不只是回答一个问题，而是能拆解任务、选择工具、观察结果、继续下一步。

普通聊天像是问答，Agent 更像一个可以连续工作的助手：

理解目标。
制定步骤。
调用工具。
观察结果。
修正计划。
直到完成或遇到阻塞。

但 Agent 不是魔法。它越能动，越需要边界：权限控制、日志、回滚机制、人工确认、失败处理都很重要。

6. 什么是 Skill

Skill 可以理解为给 AI 助手安装的一份“专业工作手册”。它通常描述某类任务应该怎么做、要遵守什么流程、可以使用哪些脚本或模板。

举个例子，如果有一个“写博客文章”的 Skill，它可能会规定：

先确定读者是谁。
再搭文章结构。
生成配图或图表。
检查标题、摘要、关键词。
最后按博客系统格式保存。

Skill 的重点不是提供外部服务，而是把经验沉淀成可重复执行的流程。它更像“方法论 + 操作指南 + 可复用素材”。

7. 什么是 MCP

MCP 是 Model Context Protocol，可以理解为模型和外部工具、数据源之间的一种标准连接协议。

过去每个 AI 应用都要为数据库、文件系统、浏览器、GitHub、企业系统分别写一套接入逻辑。MCP 的目标是提供统一接口，让不同客户端可以用相似方式发现工具、读取资源、调用能力。

更直白一点：

MCP Server 暴露工具和资源，比如“查数据库”“读文件”“创建工单”。
MCP Client 连接这些 Server，比如桌面 AI 助手或 IDE 插件。
模型通过 Client 看到可用能力，并在合适时调用。

MCP 解决的是“怎么标准化连接外部世界”的问题。

8. Skill 和 MCP 有什么区别

Skill 和 MCP 经常一起出现，但它们不是同一类东西。

概念	更像什么	主要解决
Skill	工作手册	这类任务应该怎么做
MCP	标准接口	模型怎么连接外部工具和数据
Tool Calling	调用动作	模型如何执行某个具体能力
Agent	执行者	如何连续规划、调用工具并完成任务

一个实际组合可能是：Skill 规定“发布博客要先生成、再检查、最后部署”；MCP 提供“读写文件、访问 GitHub、打开浏览器”的标准能力；Agent 按 Skill 的流程调用 MCP 工具完成发布。

9. 微调、提示词和知识库怎么选

很多人一开始会问：“我要不要微调一个模型？”大多数业务场景，优先级通常不是微调。

如果只是想让模型知道你的私有资料，优先考虑 RAG。如果只是想让回答格式稳定，优先优化 Prompt 和输出约束。如果想让模型学会某种固定风格或分类边界，再考虑微调。

简单判断：

知识经常变化：优先 RAG。
输出格式不稳定：优化 Prompt、示例和 JSON Schema。
需要接业务系统：用 Tool Calling 或 MCP。
需要长期执行复杂任务：设计 Agent。
需要模型内化某种模式：再考虑微调。

10. 安全、隐私和评测

AI 应用真正上线时，不能只看“能不能回答”，还要看“答错时会不会造成损失”。

常见风险包括：

幻觉：模型编造不存在的信息。
越权：模型调用了不该调用的工具或数据。
泄露：把敏感数据放进了不该发送的上下文。
注入：用户或文档诱导模型忽略原有规则。
不可追踪：出了问题不知道模型看过什么、调用过什么。

因此，评测和日志很重要。你需要准备典型问题、边界问题、恶意输入、历史故障案例，持续检查模型表现。

11. 一句话总结

LLM 是大脑，Prompt 是说明书，RAG 是外部资料库，Tool Calling 是手，Agent 是会做事的执行循环，Skill 是经验流程，MCP 是连接外部世界的标准插座。

理解这些基础概念之后，再看 AI 应用开发，就不会是一堆新名词乱飞，而是一套清晰的工程分层。

Author: Fueen

Link: https://ifueen.com/2026/06/04/skill/AI%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86%E6%89%AB%E7%9B%B2%EF%BC%9A%E4%BB%8E%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%88%B0Skill%E4%B8%8EMCP/

License: 本博客所有文章除特别声明外，均采用许可协议 CC-BY-NC-4.0 转载请注明出处！

AI LLM Skill MCP Agent