网站首页 全球最实用的IT互联网站!

人工智能P2P分享Wind搜索发布信息网站地图标签大全

当前位置:诺佳网 > 人工智能 > 人形机器人 >

对于手术机器人,除了视觉和语言,还需要感知

时间:2026-03-17 13:14

人气:

作者:admin

标签:

导读:对于手术机器人,除了视觉和语言,还需要感知自身的状态——关节角度、末端执行器位姿、夹爪开合度等。在手术机器人系统中,这意味着:医生的一个模糊指令、内窥镜的一帧图像...

在之前Detectron2这个视觉理解框架之后,深入其更智能化的演进方向——VLA模型。如果说Detectron2是让机器“看懂”图像中的物体,那么VLA模型则是让机器“看懂世界、听懂指令、并动手执行”的完整智能闭环。
基于手术机器人技术背景,系统梳理VLA模型的编码器-解码器架构原理。
一、VLA模型的核心定位:从“感知”到“行动”的统一
VLA(Vision-Language-Action)是一种多模态大模型,它将视觉理解、语言推理和动作执行统一在一个神经网络中,实现从传感器输入到控制动作的直接映射。

二、编码器-解码器架构全景图
VLA模型的核心架构可以概括为:多模态编码器 + 大语言模型骨干 + 动作解码器

三、编码器:让机器“看懂”和“听懂”
3.1 视觉编码器:从像素到语义特征
视觉编码器的任务是将高维图像数据转化为紧凑的语义特征向量。主流方案对比:

关键突破:DINOv2擅长处理空间关系(如器械与组织的相对位置),而SigLIP则提供强大的语言对齐特性(如“左侧”对应图像中的特定区域)。
3.2 语言编码器:将指令转化为推理基础
语言编码器将自然语言指令(如“用持针器夹住缝合针”)转化为模型可处理的语义向量:

3.3 状态编码器:让模型感知“身体”状态
对于手术机器人,除了视觉和语言,还需要感知自身的状态——关节角度、末端执行器位姿、夹爪开合度等。状态编码器通常采用轻量级MLP将这些信息映射到相同的语义空间。
四、跨模态融合:让视觉和语言“对齐”
编码器输出的视觉特征和语言特征需要被融合到统一的语义空间中,这是VLA模型的核心技术之一。
4.1 融合方式对比

4.2 跨模态注意力机制
当前主流VLA采用交叉注意力层实现模态交互:

 伪代码:跨模态注意力融合
class CrossModalAttention:
    def forward(self, visual_features, text_features):
         视觉特征作为Query,文本特征作为Key/Value
        fused = torch.nn.MultiheadAttention(
            query=visual_features,
            key=text_features,
            value=text_features
        )
        return fused   融合后的特征包含视觉+语义信息

这种机制让模型能够回答“红色”这个词对应图像中的哪个区域,以及“抓取”这个动作应该施加在哪个物体上。
五、动作解码器:从“理解”到“行动”
这是VLA模型区别于纯VLM的关键——它必须输出可执行的动作指令。
5.1 三大解码范式

5.2 扩散解码的兴起
扩散模型已成为VLA动作解码的热门选择:

LLaDA-VLA提出的掩码扩散模型(MDM)是一个典型代表:

  • 前向过程:将原始动作序列按概率替换为掩码令牌[M]
  • 反向过程:模型逐步预测被掩码的动作令牌,迭代优化直至全部还原
  • 分层解码:动作级重掩码 + 令牌级重掩码,保证结构化动作的完整性
    5.3 动作分词器:将连续动作“语言化”
    机器人动作是连续的(如关节角度),而VLM理解的是离散token。动作分词器(Action Tokenizer)正是连接二者的桥梁:

六、训练范式:从预训练到微调
VLA模型的训练通常采用两阶段策略
6.1 预训练阶段:跨模态对齐
在大规模视觉-语言数据集(如LAION、COCO)上进行对比学习,使模型学会将视觉场景与文本描述关联起来。这是VLA获得“世界知识”的基础。
6.2 微调阶段:动作学习
在机器人操作数据上微调,让模型学会将视觉+语言映射到具体动作。关键进展包括:

七、在手术机器人中的价值
结合手术机器人场景,VLA的编码器-解码器架构可以这样落地:

八、主流VLA模型对比

九、与技术栈的集成
总结
VLA模型的编码器-解码器架构,本质上是在构建一个从“感知”到“认知”再到“行动”的完整智能闭环:

视觉编码器(看) + 语言编码器(听) + 状态编码器(感) → 跨模态融合(想) → 动作解码器(做)
在手术机器人系统中,这意味着:医生的一个模糊指令、内窥镜的一帧图像、器械的实时状态,都能在统一的语义空间中被理解,并转化为平滑、精准的器械运动。
具身智能: 972390721

在这里插入图片描述

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信