刚刚结束的 NVIDIA CES 2025 发布会上,全场唯一的轮式人形机器人托举起了英伟达新一代显卡产品 RTX5090 引发关注。而该机器人正是来自北京银河通用机器人有限公司的Galbot。
与此同时,在英伟达位于美国拉斯维加斯 Fountainebleu 展台上,Galbot 机器人还首次进行了真机演示。观众在现场24小时无人值守的便利店场景中,通过iPad模拟下单,即可体验机器人在便利店中取货、送货的便捷服务。
Galbot 凭借高效、流畅的工作展示,也让其背后的银河通用具身大模型技术和创新成果走向台前。1月9日,银河通用对外正式发布GraspVLA,号称全球首个端到端具身抓取基础大模型(Foundation Model)。
据银河通用介绍,GraspVLA 的训练包含预训练和后训练两部分,其中预训练完全基于合成大数据。即无需大规模真实数据、仅通过合成数据达到基础模型的预训练过程,和进一步通过小样本微调使基础“通才”快速成长为指定场景“专家”的能力,解决了世界范围内具身通用机器人当前发展的两大瓶颈—— 数据瓶颈和泛化瓶颈。
此外,针对特别需求,GraspVLA 的后训练则仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时,还能形成符合产品需求的专业技能。
仅通过合成大数据的预训练
就可以实现充分泛化
具体而言,银河通用提出了 VLA(视觉-语言-动作模型) 达到基础模型,所需满足的七大泛化情况,并以GraspVLA进行展示。
光照泛化。咖啡厅、便利店、生产车间、KTV 等不同光照条件下,光线的冷暖、强弱变化,包括渐变和骤变,以及在极端黑暗环境下移动目标物体时,模型都应该具备准确找到并正常抓取物体的能力。
文内图片展示包括2倍、3倍或5倍速。“银河通用”公众号
背景泛化。实际环境中,机器人工作场景不尽相同,模型需要面对不同材质、不同纹理的桌面和操作台,甚至动态变化的背景画面。
平面位置泛化。模型还需要面对将物体在桌面上随意平移、旋转的情况。
空间高度泛化。即使面对物体摆放高低错落的工作台,模型也应该可以从容抓取。