银河通用发布端到端具身抓取基础大模型 GraspVLA

新京报记者韦博雅编辑岳彩周

2025-01-09 21:23

新京报贝壳财经讯（记者韦博雅）1月9日，银河通用发布端到端具身抓取基础大模型 GraspVLA。

银河通用介绍，GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据，训练数据达到十亿帧“视觉-语言-动作”对，掌握泛化闭环抓取能力、达成基础模型。预训练后，模型可直接在真实场景和物体上零样本测试，并具有七大泛化能力；针对特别需求，后训练仅需小样本学习即可迁移基础能力到特定场景，满足产品需求的专业技能。

银河通用还给出了VLA（（视觉-语言-动作模型））达到基础模型需满足的七大泛化标准，即光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化和物体类别泛化。

银河通用表示，对于特定场景的特殊需求， GraspVLA 也具备对新需求的适应及迁移能力。如在工业场景中，仅需采集少量轨迹进行快速后训练，GraspVLA 便可掌握诸如接线座（Wiring Base）、三角板（Triangular Panel）、黑色软管（Black Hose）等特殊工业名词，能从任意摆放的密集场景中找出对应零件。

校对柳宝庆

来阅读我的更多文章吧

韦博雅

新京报记者

记者主页