火山引擎发布豆包·视觉理解模型，1块钱能处理284张图片

新京报记者白金蕾编辑陈莉

2024-12-18 11:33

新京报贝壳财经讯（记者白金蕾）12月18日，2024冬季火山引擎Force原动力大会在上海举行。火山引擎总裁谭待公布了豆包大模型家族的全系列升级，同时还发布了豆包·视觉理解模型。据谭待介绍，豆包·视觉理解模型具有更强内容识别能力，包括识别图像知识、动作情绪、位置状态和文字信息等；更强的选择和推理能力，包括对图表、数学、逻辑和代码的识别；更细腻的视觉描述能力，包括细节描述、指令遵循、多种文本创作等。

谭待还宣布，火山引擎要让视觉理解模型进入“厘时代”。1块钱能在豆包·视觉理解模型处理284张图片，比行业平均价降低85%，同样的钱在GPT-4o（一款美国大模型）只能生成52张图片。

谭待还公布了豆包大模型的最新使用数据，豆包大模型发布以来日均tokens（自然语言处理领域计费和收费标准）使用量增长超33倍，日均tokens使用量超过4万亿。

校对杨利