对于手术机器人，除了视觉和语言，还需要感知

在之前Detectron2这个视觉理解框架之后，深入其更智能化的演进方向——VLA模型。如果说Detectron2是让机器“看懂”图像中的物体，那么VLA模型则是让机器“看懂世界、听懂指令、并动手执行”的完整智能闭环。
基于手术机器人技术背景，系统梳理VLA模型的编码器-解码器架构原理。
一、VLA模型的核心定位：从“感知”到“行动”的统一
VLA（Vision-Language-Action）是一种多模态大模型，它将视觉理解、语言推理和动作执行统一在一个神经网络中，实现从传感器输入到控制动作的直接映射。

二、编码器-解码器架构全景图
VLA模型的核心架构可以概括为：多模态编码器 + 大语言模型骨干 + 动作解码器。

三、编码器：让机器“看懂”和“听懂”
3.1 视觉编码器：从像素到语义特征
视觉编码器的任务是将高维图像数据转化为紧凑的语义特征向量。主流方案对比：

关键突破：DINOv2擅长处理空间关系（如器械与组织的相对位置），而SigLIP则提供强大的语言对齐特性（如“左侧”对应图像中的特定区域）。
3.2 语言编码器：将指令转化为推理基础
语言编码器将自然语言指令（如“用持针器夹住缝合针”）转化为模型可处理的语义向量：

3.3 状态编码器：让模型感知“身体”状态
对于手术机器人，除了视觉和语言，还需要感知自身的状态——关节角度、末端执行器位姿、夹爪开合度等。状态编码器通常采用轻量级MLP将这些信息映射到相同的语义空间。
四、跨模态融合：让视觉和语言“对齐”
编码器输出的视觉特征和语言特征需要被融合到统一的语义空间中，这是VLA模型的核心技术之一。
4.1 融合方式对比

4.2 跨模态注意力机制
当前主流VLA采用交叉注意力层实现模态交互：

 伪代码：跨模态注意力融合
class CrossModalAttention:
    def forward(self, visual_features, text_features):
         视觉特征作为Query，文本特征作为Key/Value
        fused = torch.nn.MultiheadAttention(
            query=visual_features,
            key=text_features,
            value=text_features
        )
        return fused   融合后的特征包含视觉+语义信息

这种机制让模型能够回答“红色”这个词对应图像中的哪个区域，以及“抓取”这个动作应该施加在哪个物体上。
五、动作解码器：从“理解”到“行动”
这是VLA模型区别于纯VLM的关键——它必须输出可执行的动作指令。
5.1 三大解码范式

5.2 扩散解码的兴起
扩散模型已成为VLA动作解码的热门选择：

LLaDA-VLA提出的掩码扩散模型（MDM）是一个典型代表：

前向过程：将原始动作序列按概率替换为掩码令牌[M]
反向过程：模型逐步预测被掩码的动作令牌，迭代优化直至全部还原
分层解码：动作级重掩码 + 令牌级重掩码，保证结构化动作的完整性
5.3 动作分词器：将连续动作“语言化”
机器人动作是连续的（如关节角度），而VLM理解的是离散token。动作分词器（Action Tokenizer）正是连接二者的桥梁：

六、训练范式：从预训练到微调
VLA模型的训练通常采用两阶段策略：
6.1 预训练阶段：跨模态对齐
在大规模视觉-语言数据集（如LAION、COCO）上进行对比学习，使模型学会将视觉场景与文本描述关联起来。这是VLA获得“世界知识”的基础。
6.2 微调阶段：动作学习
在机器人操作数据上微调，让模型学会将视觉+语言映射到具体动作。关键进展包括：

七、在手术机器人中的价值
结合手术机器人场景，VLA的编码器-解码器架构可以这样落地：

八、主流VLA模型对比

九、与技术栈的集成
总结
VLA模型的编码器-解码器架构，本质上是在构建一个从“感知”到“认知”再到“行动”的完整智能闭环：