-
MLA:传统 Attention 内存占用太大,怎么办?改造 Attention 模块,通过低秩压缩,让 KV Cache 的效率达到最优。
-
DeepSeekMoE:传统 MoE 专家不够精细,激活参数大,怎么办?改造 MoE,通过增加共享专家和细粒度专家,大幅提升了 MoE 中的专家学习的效果。
-
GRPO:传统 PPO 需要训练两个模型,效率低,怎么办?通过去掉 Value Model,引入 Group-Relative 作为 baseline,大大提升了训练效率。
如果说,DeepSeek 只是复制了硅谷的小天才模式,为什么会让那些发明这个模式的 OpenAI 们,如此紧张?这就要提到第二个关键要素。
当你深度阅读完 DeepSeek 的论文,尤其是 V3,一种新的感受会慢慢浮现:这是一个从底层硬件到上层算法的复杂大系统,以优雅的顶层设计环环相扣,以大破大立的方式平推完成。
这就是创新的第二重门:军团式的协同创新。而这,恰恰就是中国擅长的模式,也是我借用华为之名的原因。硅谷教父 Peter Thiel,对这种创新有过一个深刻的表述。他认为一个真正的垄断式创新,需要构建 Complex, Vertically Integrated System,许多不同层面的创新必须同时发生,并以一种高度协同的方式组合在一起。他认为 Elon Musk 成功的根本,就来自于对这种协同复杂系统的追求。而 Elon Musk,也被认为某些方面是最接近中国企业的(不仅是卷,笑)。
DeepSeek 是如何平推创新的?
在第一重门,我们拿着放大镜,看 DeepSeek 在三个算法上的极致优化。但这些单点优化,也容易引入超越算法范畴的问题。
所以让我们切换视角,从更全局的视角,来重新理解 DeepSeek 的创新结构,第一条线是模型的迭代节奏(这里忽略了很多支线) :
-
2023年6月,DeepSeek 成立
-
2024年2月,发表 DeepSeek-Math,提出 GRPO
-
2024年5月,推出 V2,提出 MLA 和 DeepSeek-MoE
-
2024年11月,推出 V3,提出了 MTP 和一整套软硬一体优化方案等
-
2025年1月,推出 R1,提出 R1-Zero
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/32847.html