新京报客户端

好新闻 无止境

立即打开
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
新京报 记者 罗亦丹 编辑 杨娟娟
2026-01-13 12:39

新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文为北京大学和DeepSeek共同完成。


新京报贝壳财经记者浏览发现,这篇论文的核心直指当前大语言模型存在的记忆力“短板”,提出了“条件记忆”这一概念。


为了实现“条件记忆”,DeepSeek提出的解决方案是一个名为Engram(直译为:记忆痕迹)的模块,它将语言建模任务拆解为“静态模式检索”与“动态组合推理”两大分支:前者负责实体、固定短语等确定性知识的快速调取,后者则交由Transformer架构专注完成复杂逻辑运算。


论文最后表示,“我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。”


当前,有不少声音猜测DeepSeek的下一代模型将于春节前发布,复现2025年春节期间盛况。这一背景下,此篇论文或为模型的“庐山真面目”提供了方向。


编辑 杨娟娟

校对 杨利









来阅读我的更多文章吧
罗亦丹
新京报记者
记者主页
相关推荐
专访丨中国“十五五”有科技雄心,更有实现途径——访英国《自然》杂志总编辑斯基珀
新京号
专访|中国“十五五”有科技雄心,更有实现途径——访英国《自然》杂志总编辑斯基珀
新京号
解析梁文锋署名DeepSeek新论文:让记忆和计算分开
科技
DeepSeek又发新论文:让AI用“人类思维”理解图像
科技
DeepSeek发布最新论文,破解大模型训练拥堵难题
科技
北大团队发布化学大模型基准SUPERChem,挑战多模态高难度化学推理
新京号

新京报报料邮箱:82708677@bjnews.com.cn