全球首个端到端抓取大模型发布，国产机器人攻克大瓶颈？

刚刚结束的 NVIDIA CES 2025 发布会上，全场唯一的轮式人形机器人托举起了英伟达新一代显卡产品 RTX5090 引发关注。而该机器人正是来自北京银河通用机器人有限公司的Galbot。

与此同时，在英伟达位于美国拉斯维加斯 Fountainebleu 展台上，Galbot 机器人还首次进行了真机演示。观众在现场24小时无人值守的便利店场景中，通过iPad模拟下单，即可体验机器人在便利店中取货、送货的便捷服务。

Galbot 凭借高效、流畅的工作展示，也让其背后的银河通用具身大模型技术和创新成果走向台前。1月9日，银河通用对外正式发布GraspVLA，号称全球首个端到端具身抓取基础大模型（Foundation Model）。

全球首个端到端抓取大模型发布，国产机器人攻克大瓶颈？

据银河通用介绍，GraspVLA 的训练包含预训练和后训练两部分，其中预训练完全基于合成大数据。即无需大规模真实数据、仅通过合成数据达到基础模型的预训练过程，和进一步通过小样本微调使基础“通才”快速成长为指定场景“专家”的能力，解决了世界范围内具身通用机器人当前发展的两大瓶颈—— 数据瓶颈和泛化瓶颈。

此外，针对特别需求，GraspVLA 的后训练则仅需小样本学习即可迁移基础能力到特定场景，维持高泛化性的同时，还能形成符合产品需求的专业技能。

仅通过合成大数据的预训练

就可以实现充分泛化

具体而言，银河通用提出了 VLA（视觉-语言-动作模型）达到基础模型，所需满足的七大泛化情况，并以GraspVLA进行展示。

光照泛化。咖啡厅、便利店、生产车间、KTV 等不同光照条件下，光线的冷暖、强弱变化，包括渐变和骤变，以及在极端黑暗环境下移动目标物体时，模型都应该具备准确找到并正常抓取物体的能力。

全球首个端到端抓取大模型发布，国产机器人攻克大瓶颈？