时间:2026-03-17 13:14
人气:
作者:admin
在之前Detectron2这个视觉理解框架之后,深入其更智能化的演进方向——VLA模型。如果说Detectron2是让机器“看懂”图像中的物体,那么VLA模型则是让机器“看懂世界、听懂指令、并动手执行”的完整智能闭环。
基于手术机器人技术背景,系统梳理VLA模型的编码器-解码器架构原理。
一、VLA模型的核心定位:从“感知”到“行动”的统一
VLA(Vision-Language-Action)是一种多模态大模型,它将视觉理解、语言推理和动作执行统一在一个神经网络中,实现从传感器输入到控制动作的直接映射。
二、编码器-解码器架构全景图
VLA模型的核心架构可以概括为:多模态编码器 + 大语言模型骨干 + 动作解码器。
三、编码器:让机器“看懂”和“听懂”
3.1 视觉编码器:从像素到语义特征
视觉编码器的任务是将高维图像数据转化为紧凑的语义特征向量。主流方案对比:
关键突破:DINOv2擅长处理空间关系(如器械与组织的相对位置),而SigLIP则提供强大的语言对齐特性(如“左侧”对应图像中的特定区域)。
3.2 语言编码器:将指令转化为推理基础
语言编码器将自然语言指令(如“用持针器夹住缝合针”)转化为模型可处理的语义向量:
3.3 状态编码器:让模型感知“身体”状态
对于手术机器人,除了视觉和语言,还需要感知自身的状态——关节角度、末端执行器位姿、夹爪开合度等。状态编码器通常采用轻量级MLP将这些信息映射到相同的语义空间。
四、跨模态融合:让视觉和语言“对齐”
编码器输出的视觉特征和语言特征需要被融合到统一的语义空间中,这是VLA模型的核心技术之一。
4.1 融合方式对比
4.2 跨模态注意力机制
当前主流VLA采用交叉注意力层实现模态交互:
伪代码:跨模态注意力融合
class CrossModalAttention:
def forward(self, visual_features, text_features):
视觉特征作为Query,文本特征作为Key/Value
fused = torch.nn.MultiheadAttention(
query=visual_features,
key=text_features,
value=text_features
)
return fused 融合后的特征包含视觉+语义信息
这种机制让模型能够回答“红色”这个词对应图像中的哪个区域,以及“抓取”这个动作应该施加在哪个物体上。
五、动作解码器:从“理解”到“行动”
这是VLA模型区别于纯VLM的关键——它必须输出可执行的动作指令。
5.1 三大解码范式
5.2 扩散解码的兴起
扩散模型已成为VLA动作解码的热门选择:
LLaDA-VLA提出的掩码扩散模型(MDM)是一个典型代表:
六、训练范式:从预训练到微调
VLA模型的训练通常采用两阶段策略:
6.1 预训练阶段:跨模态对齐
在大规模视觉-语言数据集(如LAION、COCO)上进行对比学习,使模型学会将视觉场景与文本描述关联起来。这是VLA获得“世界知识”的基础。
6.2 微调阶段:动作学习
在机器人操作数据上微调,让模型学会将视觉+语言映射到具体动作。关键进展包括:
七、在手术机器人中的价值
结合手术机器人场景,VLA的编码器-解码器架构可以这样落地:
八、主流VLA模型对比
九、与技术栈的集成
总结
VLA模型的编码器-解码器架构,本质上是在构建一个从“感知”到“认知”再到“行动”的完整智能闭环:
视觉编码器(看) + 语言编码器(听) + 状态编码器(感) → 跨模态融合(想) → 动作解码器(做)
在手术机器人系统中,这意味着:医生的一个模糊指令、内窥镜的一帧图像、器械的实时状态,都能在统一的语义空间中被理解,并转化为平滑、精准的器械运动。
具身智能: 972390721
