对于正在迷茫择业、想转行提升，或是刚入门的

本文介绍了RAG（检索增强生成）系统如何通过外部知识增强大模型的理解和回答能力。概述了大模型的发展历程、关键进展及分类，深入解析了Transformer模型原理及其在大语言模型中的应用。针对RAG场景，文章详细探讨了如何选择合适的大模型，包括考虑开源与闭源、模型参数规模、国内与国外部署等因素，并结合SuperCLUE测评基准提供选型参考。最后，文章对比分析了闭源与开源大模型的优缺点，推荐了Qwen、Baichuan和ChatGLM等开源系列模型。

一、前提

RAG 的本质是通过为大模型提供外部知识来增强其理解和回答领域问题的能力，类似于为大语言模型配备插件，使其能够结合外部知识作出更为精准和符合上下文的回答。大模型在 RAG 系统中起到大脑中枢的作用，尤其在面对复杂且多样化的 RAG 任务时，大模型的性能直接决定了整个系统的效果和响应质量，可以说大模型是整个系统的大脑。
如下图所示，经过 RAG 索引流程外部知识的解析及向量化，RAG 检索流程语义相似性的匹配及混合检索，系统进入 RAG 生成流程。生成流程中，首先需要组合指令，指令将携带查询问题及检索到的相关信息输入到大模型中，由大模型理解并生成最终的回复，从而完成整个应用过程。

二·、大模型发展

自 2022 年 OpenAI 公司发布 ChatGPT 以来，AI 2.0 时代 “Scaling Law” 大模型技术范式在全球范围内引发了人工智能学术与产业热潮。
根据中文大模型综合性测评基准 SuperCLUE 组织发布的 2024 年 8 月报告阐述，AI 大模型 2023-2024 年关键进展大致可以分为四个阶段。

准备期：ChatGPT 发布后国内产学研迅速形成大模型共识

成长期：国内大模型数量和质量开始逐渐增长

爆发期：各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势

繁荣期：更多模态能力的延伸和应用
在 OpenAI 公司领衔的 GPT 系列及 Sora 的推动下，全球 AI 大模型技术进入了快速发展的新阶段。国内各大模型同步迅速跟进，市场从活跃到爆发，企业纷纷加大研发投入，推动了大模型技术从学术研究走向实际应用。在不到两年的时间里，新技术和新产品的迅速涌现，带来了行业的深度变革，标志着 AI 2.0 时代的加速到来。
同时 SuperCLUE 组织也发布了中文大模型全景图，展示了 2024 年值得关注的中文大模型，从通用、多模态、行业三个层面进行了详细分类，各领域的大模型应用层出不穷。RAG 中目前更关注通用大模型，比如闭源的文心一言、通义千问、腾讯混元、字节豆包、Kimi Chat 等都是可选择的大模型组件，如果需要私有化部署，Qwen 系列、GLM 系列、Baichuan 系列都在可考虑范围。

三、大模型原理

一切始于 Google 在 2017 年发表的论文《Attention Is All You Need》，论文访问地址为https://arxiv.org/pdf/1706.03762 ，引入了 Transformer 模型，它是深度学习领域的一个突破性架构，大型语言模型的成功得益于对 Transformer 模型的应用。
与传统的循环神经网络（RNN）相比，Transformer 模型不依赖于序列顺序，而是通过自注意力（Self-Attention）机制来捕捉序列中各元素之间的关系。Transformer 由多个堆叠的编码层（Encoder）和解码层（Decoder）组成，每一层包括自注意力层、前馈层和归一化层。这些层协同工作，逐步捕捉输入数据信息特征，从而预测输出，实现强大的语言理解和生成能力。
Transformer 模型的核心创新在于位置编码和自注意力机制。位置编码帮助模型理解输入数据的顺序信息，而自注意力机制则允许模型根据输入的全局上下文，为每个词元分配不同的注意力权重，从而更准确地理解词与词之间的关联性。这种机制使得 Transformer 特别适用于语言模型，因为语言模型需要精确捕捉上下文中的细微差别，生成符合语义逻辑的文本。

在这里插入图片描述

上图展示了 Transformer 模型的架构及其核心机制的可视化示例。左图中，Transformer 模型由编码器和解码器两部分组成。编码器负责理解输入信息的顺序和语义，解码器则输出概率最高的词元。
右上图中的示例显示了输入句子中的填空任务，解码器依据输入句子的特征和已生成的部分句子，生成了“She”作为模型的预测结果。生成“She”的核心原因在于右下图所示的注意力机制，其中需要填空的部分对输入句子中的词元“The Doctor”和“Nurse”分配了较高的注意力权重，从而提高了“She”作为输出词元的生成概率。
大语言模型的突破始于 2022 年年底 OpenAI 发布的 ChatGPT。其核心优势体现在庞大的参数规模（数百亿甚至数千亿）、基于 PB 级别数据的训练所带来的卓越语言理解与生成能力，以及其显著的涌现能力。大语言模型不仅在传统的自然语言处理任务中展现了卓越表现，还具备了解决复杂问题和进行逻辑推理等高级认知能力。
基于 Transformer 模型通过预测下一个词元的原理，大语言模型在分析了海量的语料库后，能够在逻辑上精准补全不完整的句子，甚至生成新的句子。这一推理模式赋予了大语言模型生成连贯且上下文相关文本的能力，使其在文本生成、翻译、问答系统等多个领域得到广泛应用。

四·、RAG 中如何选择大模型

在如今大模型层出不穷的情况下，如何在 RAG 应用场景中选择合适的模型呢？我们面对的是开源与闭源的选择、大参数与小参数的对比，成本的考虑以及云端与私有化部署的抉择。针对这些问题，我们需要结合测评和具体的应用场景进行综合考量。
从测评角度来看，前面已经介绍了中文通用大模型的综合性测评基准 SuperCLUE，SuperCLUE的访问地址为https://www.cluebenchmarks.com/static/superclue.html，它对中文场景中的多个任务分支进行测试，涵盖基础能力、专业能力以及中文特性多个方面。每个任务分支又包含多个维度，例如语义理解、生成与创作、代数、生物、成语、诗词等。下图展示了这些维度的具体内容，SuperCLUE 每月都会更新测评结果，确保其反映大模型的最新表现。

在这里插入图片描述

尤其需要关注的是 SuperCLUE-RAG 检索增强生成测评 https://www.superclueai.com/arena?type=image&tab=text2image，在 RAG 场景中，大模型的检索能力表现是核心。SuperCLUE 针对 RAG 应用场景进行了独立测试，具体评估了大模型在检索和生成过程中的表现，测试数据如下图所示（2024 年 9 月 5 日数据）。

在这里插入图片描述

在 SuperCLUE 官网的 SuperCLUE-RAG 检索增强生成分支页面上，可以查看其总榜及四大基础任务的测评结果。选择模型时可以根据总分，以及模型在答案及时性、信息整合能力、拒答能力、检错和纠错能力等方面的表现，进行综合评估，作为场景选型参考。
其次，也是最重要的，我们需要根据实际应用场景来考量并选择适合的大模型，以下几个维度是关键：

开源与闭源：开源模型适用于数据敏感性高或有严格合规要求的场景，通过自托管实现对数据的完全掌控，确保隐私与安全。而闭源模型则适合数据敏感度较低的应用场景，其维护与服务相对完善，能够降低运维复杂度。

模型参数规模：大参数模型在复杂任务中的推理与生成能力较强，但并非所有应用场景都需要高精度模型。小参数模型（如 7B）在满足简单逻辑任务时，具备更优的响应速度、成本控制和资源利用效率。因此，模型规模应依据应用复杂性及算力预算进行合理匹配。

国内与国外部署：模型选择还需考虑部署环境。如果应用主要在国内进行，虽然调用国外大模型的接口是可行的，但可能会遇到稳定性、网络延迟、注册认证、充值付费等方面的实际问题。此外，数据合规性是重要考量，尤其对于需要遵循国内隐私和数据安全法规的场景，选择国内大模型或本地化部署更为合适。
综上所述，模型的选择应结合 RAG 应用场景的需求和限制，更好地选择合适的大模型以最大化其效果。
最后对闭源和开源大模型做个分析和推荐。闭源与开源大模型在 RAG 应用中的选择需要结合参数规模、性能差异、成本及数据安全等多重因素加以考虑。

闭源大模型，如通义千问、文心一言、混元大模型、豆包大模型和 Kimi Chat 等，由于参数量较高，在 RAG 应用中的实际表现差异其实较小，此类大模型的选择更多地取决于成本需求。

开源大模型，基于其在国内的广泛使用和优异表现，推荐以下三个系列：Qwen 系列模型、Baichuan 系列模型、ChatGLM 系列模型

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

????????扫码免费领取全部内容????????

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

????????扫码免费领取全部内容????????

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

对于正在迷茫择业、想转行提升，或是刚入门的

一、前提

二·、大模型发展

三、大模型原理

四·、RAG 中如何选择大模型

最后

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

3、这些资料真的有用吗？

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢

对于正在迷茫择业、想转行提升，或是刚入门的

一、前提

二·、大模型发展

三、大模型原理

四·、RAG 中如何选择大模型

最后

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

3、 入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

3、这些资料真的有用吗？

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）