时间:2025-11-03 11:27
人气:
作者:admin



S2E(Seeing-to-Experiencing)学习框架旨在通过结合离线视频预训练和模拟环境中的强化学习,训练出既具有泛化能力又具备交互性的导航基础模型。该框架的核心目标是学习一个视觉导航策略π,使机器人能够从起点ps导航到目标点pd。具体来说,S2E框架包含两个关键部分:

机器人导航轨迹具有多模态性,即在相同的观察条件下,可能存在多个有效的动作。有效建模这种多模态性对于泛化策略至关重要。然而,常见的表示方法(如离散动作或单模态高斯分布)缺乏表达能力,而扩散模型虽然表达能力强,但过于灵活,难以控制,可能导致不安全的轨迹。

方法介绍:
(1) 提出了一种锚点引导的高斯混合模型(GMM)来表示机器人动作。具体来说,通过在机器人的前进方向上均匀采样生成多个锚点,每个锚点对应GMM中的一个高斯模式。
(2)这些锚点作为可解释的高级意图,模型通过学习这些锚点的分数来反映每个意图点被选为引导模式的概率。通过这种方式,模型能够在保持结构化的同时,生成多样化且目标一致的行为。
模型架构:
(1)模型接收连续的RGB帧和目标位置作为上下文信息,并使用预定义的与具体体现无关的锚点作为查询进行预测。首先,通过自注意力模块整合上下文嵌入,生成键(K)和值(V)。同时,锚点特征fP作为查询(Q)。
(2) 随后,RAM块根据锚点查询Q计算加权特征,并生成细化的锚点特征。最终,通过分类头和回归头解码锚点特征,预测分数和归一化的轨迹以及速度尺度。
训练过程:
(1) 模型采用端到端的训练方式,使用两种训练损失。第一种是负对数似然(NLL)损失,用于监督分类头和轨迹头。
(2)通过选择与真实轨迹方向最一致的模式进行优化。第二种是L2回归损失,用于优化速度尺度。
如果直接对整个模型参数进行强化学习微调,可能会导致模型对模拟数据过度拟合,从而在真实世界数据上表现不佳。特别是对于视觉编码器等对领域变化敏感的组件,这种分布偏移可能会显著降低性能。

方法介绍:
(1) RAM模块通过复制预训练的交叉注意力层,并在复制的层上进行微调,同时保持原始模块冻结。
(2)这种设计通过在复制的模块周围添加两个零初始化的线性层,确保在初始化时,添加的适应分支对原始模型输出没有影响,但在微调过程中可以平滑地进行适应。

训练过程:
(1) 使用PPO算法进行训练,定义了综合的奖励函数,包括速度方向奖励、位移惩罚、到达目标奖励和碰撞惩罚。
(2)通过策略梯度调整RAM模块的参数,使用PPO剪辑目标和熵正则化进行微调。

基准测试设计:
(1)测试场景:基于光栅化三维高斯溅射重建的真实世界场景,包含26个场景,每个场景包含4种任务:空环境、有随机静态障碍物的环境、有移动行人的环境、有障碍物和行人的环境。
(2)评估指标:成功率(SR)、路线完成率(RC)和碰撞次数(CT)。
基线方法:
(1) 图像目标方法:GNM、ViNT、NoMaD。
(2) 点目标方法:CityWalker、MBRA、ViNT*、NoMaD*(*表示使用点作为目标重新训练的模型)。
实验结果:



实验设置:
(1) 对比方法:ViNT*(单模态匹配)和S2E-BC(锚点引导分布匹配)。
(2)测试场景:包含障碍物和行人的复杂环境。
实验结果:
(1)性能对比:S2E-BC在成功率上比ViNT*提高了33%,碰撞率降低。这表明锚点引导分布匹配能够显著提升模型在复杂环境中的性能,有效捕捉多模态分布。
实验设置:
(1) 对比方法:S2E-SFT(监督微调)、S2E-PPO(从头开始的强化学习)、S2E-FullFT(全参数微调)和S2E-Full(使用RAM的强化学习)。
(2) 测试场景:NavBench-GS中的障碍物环境。
实验结果:
结论:
(1) S2E框架通过结合离线预训练和强化学习,有效地提升了导航基础模型在多样化真实世界环境中的泛化能力和交互性,能够在不同的机器人平台上实现零样本泛化,为机器人导航领域提供了一种新的、有效的学习方法。
未来工作:
(1) 当前系统缺乏3D感知能力,导致即使S2E-full模型有时也会出现碰撞失败的情况,未来可以考虑整合深度估计或占用预测任务来推断3D结构线索。
(2)此外,还需要解决由于机器人机械结构导致的问题,如模拟与真实机器人平台之间的差异所引起的sim-to-real差距,以及运动控制不准确导致的性能下降问题,可以通过实施更高保真度的模拟建模并结合广泛的数据增强策略来有效缓解这些问题。
(3) 在未来,还计划将该框架扩展到其他机器人应用领域,例如移动操作等。
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

所有视频教程所涉及的实战项目和项目源码等
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。


保证100%免费】
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。


大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
实战专家亲授,让你少走弯路
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
保证100%免费】