本文为有NLP、大模型基础知识的程序员提供了入

本文为有NLP、大模型基础知识的程序员提供了入门多模态大模型（MLLM）的全面指南。内容涵盖了MLLM的模型结构、训练数据、训练方法及评估方法，重点解析了模型结构和算法逻辑。文章对比了两种构建MLLM的主要方法：统一的Embedding解码器架构和跨模态的Attention架构，并详细介绍了预训练、指令调优和对齐调优三个训练阶段。此外，还讨论了多模态模型的评估、扩展技术、多模态幻觉及其缓解方法，以及未来的挑战和方向。

背景

近几年主要处理NLP相关的任务，从小模型到大模型LLM，主要都是针对文本，最近有多模态模型MLLM处理的需求，迫切需要学习下多模态模型的整体情况，整理了此文。

本文适合有NLP、大模型知识基础，又想入门了解多模态大模型的同学。主要包括：多模态大模型的模型结构、训练数据、训练方法、评估方法等，侧重于模型结构和算法逻辑。

主要参考资料

原本希望找最新（2025年6月）的多模态大模型综述，但找到的流行的资料都是2024年底的，主要包括如下两篇，本文主要基于这两篇文章进行整理：

《Understanding Multimodal LLMs》：https://magazine.sebastianraschka.com/p/understanding-multimodal-llms
《A Survey on Multimodal Large Language Models》：https://arxiv.org/pdf/2306.13549

主要名词：

NLP：Natural Language Processing，自然语言处理
LM：Language Model，语言模型
LLM：Large Language Model，大语言模型，简称大模型
LVM：Large Vision Model，大视觉模型
MLLM：Multimodal Large Language Model，多模态大语言模型，简称多模态大模型

资料一：《Understanding Multimodal LLMs》

MLLM概念和使用场景

图1. MLLM输入输出各种模态

MLLM中的Multimodal指模型能处理多种模态，主要包括文本、音频、图像和视频。文中说主要指模型的输入包括多模态，实际上输出也完全可以多模态，比如生成音频、图片和视频。

使用场景很多，例如对给定的图片或者视频，输出其内容描述，或者输入图片&要求的指令文本描述，抽取内容以markdown格式输出等。

构建MLLM的通用方法

图2. MLLM的两种主要方法

主要有两种方法：

方法A：统一的Embedding解码器架构

方法B：跨模态的Attention架构

下文主要使用图片作为文本之外的模态为例进行介绍。

2.1 方法A：统一的Embedding解码器架构

如图2左边部分，图片的处理，类似LLM中处理文本的方式，使用图片编码器把图片转化为embediding向量，然后和文本的embedding拼接在一起，输入给LLM大模型。

2.1.1 理解图片编码器

先回顾一下文本转化为embedding的过程：

图3. 文本转化为embedding的过程

文本通过Tokenizer转换为一系列token，一个token可能是一个、多个或者部分单词或者文字，由具体的Tokenizer而定。然后token通过Emdedding层转化为一个一个embedding向量，就可以供LLM使用了。

图4. 图片编码器

图像编码器直接把图片转化为多个图片块的embedding，对应文本处理tokenizer和embedding模块，编码器内部如下：

图5. ViT模型内部编码器结构

图5以ViT模型结构为例，ViT通常用于图像分类，在embedding向量之后通过MLP层进行分类，此处我们主要关注输出embedding之前的编码器部分。图片先分块，然后通过线性层、Transformer编码，最后输出embedding向量。其中线性层的作用是把分块后的图片映射到embedding需要的向量大小，再通过Transformer得到相同大小的embedding。

图6. 图片分块后线性层的作用

当然，也可以在图片编码器后对embedding进行线性变换，把维度变换为和文本embedding相同大小，以便拼接在一起输入LLM处理。

图7. 对图像编码器输出embedding进行维度变换

图像编码器通常是通过预训练的Transformer模型，流行的有CLIP 、OpenCLIP 。

2.2 方法B：跨模态的Attention架构

此方法仍然使用方法A中讨论的图像编码器，与方法A把图片embedding和文本embedding拼接后输入LLM Transformer不同，方法B把图片embedding通过交叉注意力（cross-attention）接入LLM Transformer的自注意力模块。

图8. 跨模态注意力架构，图片embedding接入多头注意力层

回顾一下图9 Transformer经典结构中的注意力机制，解码器Decoder中的Q、K、V进行多头注意力计算，其中K、V来自编码器Encoder，Q来自Decoder。

图9. Transformer结构

训练方法

由于我们在后面第二大部分介绍MLLM综述的时候会详细描述模型训练，本节简要说明方法A和B的训练方法。

图10. 方法A、B不同组件训练过程中的冻结、解冻

类似纯文本LLM，MLLM的训练通常也包括预训练和微调阶段，但MLLM中的LLM部分通常使用已经预训练和指令微调后的LLM。

通常，在预训练阶段LLM冻结，仅训练线性层的projector部分（见图10），在指令微调阶段解冻LLM进行训练。

本资料介绍了10个常见的MLLM模型，分别如下（到现在已经有半年时间，常见模型应该有变化，另行再调查）：

LLama（Meta）
Molmo
NVLM（Nvida）
Qwen-VL（阿里巴巴）
Pixtral（Mistral）
MM1.5
Aria
Baichuan-Omni（百川）
Emu3
Janus（DeepSeek）

资料二：《A Survey on Multimodal Large Language Models》

本综述来自于中科大和腾讯实验室。

主要内容包括：主流架构、训练策略和数据、主流评估方法、可扩展点讨论、多模态幻觉、扩展技术、挑战和方向。我挑重点概括，侧重前三点。

主流架构

整体架构如图11，虽然和资料一中图2的方法A和B初看不一样，其实本质是一样的，我们后面解释。

图11. MLLM典型架构

资料一在文本之外的模态直接用图片模态为例来说明，本综述中更严谨，输入、输出都示例了文本、图像、音频、视频。

文本之外的模态先使用编码器（Modality Encoder）编码得到embedding，然后通过一个连接器（Connector）连接文本和其他模态的embedding，输入给LLM。输出可以是文本，也可能有生成器生成其他模态数据。所以主要组件包括：Modality Encoder、Connector、LLM，下面分别展开说。

1.1 Modality Encoder

通常，不会从头开始训练编码器，而是使用一个已经预训练好、和别的模态对齐了的编码器。例如，CLIP就是一个在大规模“图片-文本”对上经过预训练，把图片和文本对齐的编码器。图像模态主要使用的编码器如下表1。

表1. 常用图像编码器

选择编码器主要考虑因素有：分辨率、参数大小、预训练预料。很多工作已经表明，提高输入图片数据分辨率能显著提高模型性能。提高的方法包括直接提高（用更高分辨率图片微调编码器、或者替换支持高分辨率的已预训练好的编码器）和分块方法（把高分辨率图片分块，重用低分辨率编码器）。相比之下，提高模型参数量和训练数据组合没有提高输入分辨率重要。

1.2 预训练的LLM

架构图中的LLM通常也是使用已经预训练好的LLM，而不是从头训练，这样LLM以及拥有了广泛的通用知识。常用LLM如表2。

表2. 常用开源LLM

多数都使用Transformer Decoder（Causal Decoder）结构，阿里的Qwen开源以来，增强了对中文世界的支持。通常，增加模型参数大小能相应提高模型水平。混合专家模型（MoE）也逐渐获得越来越多的关注（特别是DeepSeek成功之后）。

1.3 模态接口（Connector）

连接器就是连接文本和其他模态的桥梁。个人理解，多模态模型本质就是对齐文本模态和其他模态，映射到同一个空间下，然后通过大规模的参数进行训练学习。

连接器主要分为两种接口：token级别(token-level)融合和特征级别(feature)融合。这就对应了资料一中的方法A和B，其中方法A为token级别融合，方法B为特征级别融合，所以说本质上两个资料说的是同一回事。

token级别融合，多模态编码器输出的embedding和文本token的embedding拼接起来输入到LLM。Q-Former通过Q、K、V方式学习，有一些方法直接使用MLP直接学习。

特征级别融合，通过额外模块使文本特征和其他模态特征深度融合，资料B中的交叉注意力方法只是一种。有实验证明，token级别融合比特征级别融合在VQA基线上性能要好，作者认为因为使用交叉注意力机制的特征级别融合需要更多的超参数搜索过程才能达到同等性能。

上述两种融合方式都可归纳为可学习的Connector，就是通过训练学习Connector的参数。还有一种不通过参数学习的方式，直接使用专家模型（Expert Model），把多模态数据转为语言。

训练策略和数据

完整的MLLM训练包括三个阶段：预训练、指令调优、对齐调优。

2.1 预训练

预训练的目的是为了对齐不同模态，学习多模态的通用知识。预训练阶段主要使用大量的“文本-图像/音频/视频”对进行训练，文本是对图像/音频/视频的说明。

表3. 预训练使用的数据模版

表3是一个用于预训练的数据模版，使用预训练模型预测图片的描述。

训练方法：主流方法是冻结多模态编码器和LLM，只训练可学习的Connector，目的是为了不丢失已经预训练获取的知识。某些方法也解冻更多参数，比如编码器中的参数，希望更多参数的学习提供对齐能力。

具体预训练数据集，主要分为粗粒度和细粒度高质量数据，如表4，不再赘述。

表4. 常见预训练数据集

2.2 指令调优

指令调优和LLM中是同一个概念，只不过数据中增加了各种模态。指令指的是对任务的描述，例如“把这段视频的内容描述一下”就是一个指令。指令调优的目的是让模型更好地理解人类下达的指令和任务。

和指令调优可对比的学习范式有3种，如图12：

图12. 三种典型的学习范式

（A）是基于预训练模型进行有监督微调，这种方式需要大量和任务相关的数据，比如翻译、摘要等。

（B）通过提示词工程提升模型预测效果，例如使用few-shot提供一些例子给模型。

（C）指令调优学习如何归纳未见过的任务，而不是去学习具体的任务。

表5是一个用于指令调优的模版数据，在数据的一开始给了具体的指令。不同的模版可定义各种不同的指令。

表5. 多模态指令数据模版样例

训练方法：根据指令、输入，使用模型预测输出，让输出尽可能接近标签值。

创建指令调优训练数据的典型方法有三种：

Data Adaption：利用现在已有的高质量数据集，转化为指令格式数据集，例如借助GPT模型等。
Self-Instruction：使用大模型基于少量手工标注样本，生成指令数据集。
Data Mixture：使用纯语言对话数据集，结合多模态指令数据集进行微调，也能改进模型性能。

研究表明，调优数据的质量并不比数量的重要性低，高的数据质量主要指增加指令的多样性和任务的多样性、复杂性。

2.3 对齐调优

主要指需要模型和人类偏好进行对齐，例如减少幻觉。

主要使用基于人类反馈的强化学习（RLHF，Reinforcement Learning with Human Feedback）和直接偏好优化（Direct Preference Optimization，DPO），和LLM相同，不再赘述。

可用于多模态对齐调优的数据集见表6。

表6. 对齐调优数据集

评估

主要根据评估问题集合进行分类，分为封闭集和开放集。

封闭集：问题的答案提前预定义好，在一个有限的集合里，答案可以通过一些基线指标进行判断。

开放集：问题答案比封闭集更灵活，一般有三种评估方法：人工打分、GPT模型打分、具体案例分析（case study）。

扩展点

最近的研究从MLLM基础能力扩展到更广泛场景覆盖，包括：

更细粒度支持：例如对图像具体区域的指定、图像像素级的支持。
更多模态支持：例如3D点云、输出生成图片、音频、视频。
更多语言支持：当前多数模型是单语种，受限于高质量非英语语料的稀缺，以阿里Qwen系列模型为代表的开源多模态模型，开始同时支持英文和中文。
场景\任务扩展：从通用助手，到具体真实场景的应用，例如用于移动设备。

多模态幻觉

当前的研究，多模态幻觉主要分为三类：

对象是否存在的幻觉：模型错误判断图片中有无某个对象。
对象属性幻觉：错误判断对象的某些对象的属性，例如狗的颜色。
关系幻觉：错误判断对象之间的关系。

幻觉的评估方法：CHAIR方法用于评估开放式标题的幻觉水平，POPE方法用于评估封闭集选择，HaELM建议使用文本LLM判断MLLM的标题是否正确。

幻觉缓解方法：

提前矫正：准备负样本数据，进行微调，缓解幻觉。
事中矫正：改进架构设计或特征表示，探索引起幻觉的原因，设计对应的方法在生成阶段缓解。
后矫正：例如使用专家模型、通过上下文信息对生成结果进行矫正。

扩展技术

6.1 多模态In-Context Learning（M-ICL）

ICL是LLM中重要的能力，有两个优点：1）不像传统监督学习通过大量数据学习，ICL实际不需要训练，通过类比学习，根据提供的少量示例，能解决复杂的并未曾见过的任务；2）ICL因为不需要训练，容易在推理阶段整合到不同的框架中。

ICL扩展到多模态领域，已经形成了M-ICL，其主要用于两个场景：1）解决不同的视觉推理任务；2）教LLM使用外部工具，和CoT很相近。

6.2 多模态Chain of Thought（M-CoT）

LLM中的思维链CoT不用多解释，实现CoT主要有三种方法：微调、few-shot learning、zero-shot learning。

对于链是如何构造的，当前研究认为有两种模式：1）基于填充模式，需要基于上下文推断，填充逻辑缺口；2）基于预测模式，需要根据给定的条件比如指令，扩展推理链。

6.3 LLM辅助视觉推理

从训练方法上分为两种方式：1）无需训练，直接使用提示词；2）通过模型微调。

从功能上分为三种：1）LLM作为控制器；2）LLM作为决策者；3）LLM作为语义提炼者，根据不同需求发挥LLM强大的语义能力。

挑战和未来方向

上下文长度限制，包括长视频等
对应更复杂的指令，比如指令跟随能力
M-ICL、M-CoT技术改进
基于MLLM的具身智能Agent
解决模型安全问题

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】