豆包文生图能力升级支持一键生成含指定文字的图片

新京报记者白金蕾编辑岳彩周

2024-12-06 12:19

新京报贝壳财经讯（记者白金蕾）12月5日消息，字节跳动旗下智能AI助手豆包升级文生图能力，支持一键生成指定文本。用户可以在生图提示词中加入文本要求，如“一张带有‘新年快乐’的图”，即可生成带有指定文字的图片。目前该功能已经在豆包APP开启测试，即梦也已小范围测试，豆包网页及电脑版也将在近期上线该能力。

对文生图模型而言，如何在图像中精准生成文本一直是难题，尤其是中文文字，经常出现乱码。原因是相比英文字母，汉字字符结构更复杂，且字符数量要多两个数量级。豆包大模型团队相关负责人表示，豆包文生图模型通过打通LLM（大语言模型）和DIT（扩散模型）构架，具备更好的原生中文数据学习能力，并在此基础上强化了汉字生成能力，大幅提升了生成效果。

豆包负责人表示，该能力刚刚推出，仍在完善和优化中。目前绝大多数情况下豆包能够准确生成指定文字，但仍存在少部分错字、漏字或小字乱码等情况。“不管文字、图片还是音乐生成功能，豆包都希望能够降低创作门槛，帮助人们更好地表达和创造。”

编辑岳彩周

校对卢茜