通用视觉大模型SegGPT发布，将加速自动驾驶等实体智能产业

新京报记者张璐编辑刘梦婕

2023-06-01 13:33

SegGPT是国际首个利用视觉提示完成任意分割任务的通用视觉模型。

新京报讯（记者张璐）2023中关村论坛发布20项重大科技成果，北京智源人工智能研究院研发的通用视觉大模型SegGPT是其中之一。SegGPT是国际首个利用视觉提示完成任意分割任务的通用视觉模型，将加速高级别自动驾驶和通用机器人等实体智能产业的发展。

北京智源人工智能研究院院长黄铁军说，语言和视觉是智能的两种最主要形态，初步统计显示，在人工智能领域从事视觉研究的人员和相关企业占一半左右。之前，公众已经使用过人脸识别、车牌识别等相关的人工智能产品，这些产品是基于“专用视觉模型”，即每一个模型解决专门的视觉问题，比如考勤打卡系统的人脸识别模型，不能用于车辆识别。

大模型技术出现之后，通用人工智能成为新的竞争热点。用大模型技术解决语言问题时，主要靠语言的上下文关联。由于语料很丰富，语言大模型已经取得了重要突破，出现了很多成功的应用。但视觉识别的难度更大，需要非常精准。“比如自动驾驶中哪里是路，哪里是草地和行人，需要准确区分，对任意场景都能精确分割识别才能叫通用视觉。”

黄铁军介绍，SegGPT是国际首个利用视觉提示完成任意分割任务的通用视觉模型。“分割任务是计算机视觉的经典问题，也是通用视觉的基础。随便给出一个图像，AI系统需要清楚区分图像中的车、人、道路、环境等不同物体。”他说，将视觉分割做好并不容易，比如一辆车是一个整体，但车是由车窗、车轮、挡板等部件组成的，每一个部件又是独立的对象。

他表示，SegGPT模型可以实现对图像和视频中的一切要素分割，比如不同类别的动物、植物、车上的零部件、医学图像中的病灶、遥感图像等。同时，模型具有灵活推理能力，只需给出一个或几个示例图像和意图掩码，模型就能明白用户意图，从视觉场景中找到目标对象。模型还具有视频分割和追踪能力。由于视频是连续的时间序列，只需要在第一帧画面给出意图，模型就可以在后面的画面中连续检测跟踪目标。

未来，语言类的通用人工智能将更多满足信息服务类需求，视觉类的通用人工智能主要用于自动驾驶、机器人等实体类智能。“我们的模型为物理智能体，比如车或者机器人装上一双‘眼睛’，让它即使到复杂场景中也可以分清楚不同事物及其相互关系。”黄铁军说。

编辑刘梦婕

校对赵琳

来阅读我的更多文章吧

张璐

新京报记者

记者主页