简单对比就能看出差异：Anthropic给模型配了个超级秘书，帮你整理200个文档、记住所有对话；DeepSeek更激进，直接给模型做脑科手术，让它长出一个“记忆器官”，像查字典一样O(1)秒回，不需要层层激活神经网络。

这问题其实早就该解决了。

从Transform架构起，大模型先天处理知识就像个死记硬背的学霸，每次问“戴安娜王妃是谁”，都得把175B参数的脑子从头到尾过一遍，这得白烧多少算力资源？

这就好比你每次想查个单词，都要把整本牛津词典从A背到Z才能告诉你答案，多荒谬？即使是现在流行的 MoE 架构，每次为了回忆一个冷知识，也要调动大量昂贵的计算专家参与运算。

1）Engram的核心突破：让模型长出“记忆器官”

Engram做的事情很简单，就是把静态事实知识从“参数记忆”里剥离出来，扔进一个可扩展的哈希表里，通过N-gram切分+多头哈希映射，实现O(1)常数时间查找。

说人话就是，管理上下文系统，还是让AI拿着说明书，遇到问题翻书查阅，而Engram目标是让大脑里找出一个新的器官，专门用来瞬间“回想”起一些固定成常识的知识，不需要再去动脑子推理。

效果有多猛？27B参数的模型在知识任务（MMLU）上提升3.4%，长文本检索从84%飙到97%。关键是，这些记忆参数可以卸载到便宜的DDR内存甚至硬盘里，推理成本几乎为零。

2）这是在革RAG和GPU军备竞赛的命？

如果Engram真跑通了，第一个受冲击的不是OpenAI，是RAG（检索增强生成）这套玩法和NVIDIA的显存生意，尤其是公有知识库RAG。

因为，RAG本质是让模型去外部数据库“查资料”，但查询慢、整合差、还得维护向量库。Engram直接把记忆模块嵌进模型架构，查得又快又准，还能用上下文门控过滤掉哈希冲突。

而且要命的是，论文里提到的“U型scaling law”的发现很刺激，若模型把20-25%参数给Engram当“记忆硬盘”，剩下75-80%留给传统神经网络做“推理大脑”，而且记忆规模每扩大10倍，性能就能对数级提升。

这不就彻底打破了“参数越大=越聪明”的信仰，从“无限堆H100”的军备竞赛，变成“适度算力+海量廉价记忆”的效率游戏？

以上。

不知道，DeepSeek V4会在春节前后发布，会不会把Engram和之前的mHC组合拳全部打出来。

这场“算力为王”到“算力+记忆”双轮驱动的范式革命，估计又会掀起一波血雨腥风，就看掌握算力资源优势的OpenAI、Anthropic等巨头们如何接招了。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

置顶

Claude Skills才火了一阵子，昨天DeepSeek就发了新论文，用Engram告诉市场：你们方向可能错了？？ AI LLM真的是每天都在上演神仙打架！😱

热门话题

WCTC交易王PK

美国寻求战略比特币储备

比特币ETF期权持仓限额增4倍

美联储利率不变但内部分歧加剧

DeFi4月安全事件损失超6亿美元

置顶