Sealessland logo Sealessland
LLM Inference

DeepSeek-V4 架构整理

整理 DeepSeek-V4 的架构设计,包括 MoE、MLA、Engram Memory 和 mHC。

DeepSeek-V4 架构整理

DeepSeek-V4 在 2026 年 4 月发布预览版,总参数量约 1T,每 token 激活约 32-37B。单看数字很吓人,但架构设计的目标其实是用稀疏激活维持参数量子跃迁,同时控制推理成本。这篇把几个关键组件整理清楚,以及它们之间是怎么配合的。

整体参数

规格数值
总参数量~1 Trillion
每 token 激活参数~32-37B
激活专家数16 experts / token
上下文窗口1M tokens
注意力机制MLA + Engram Memory
连接方式mHC (Manifold-constrained Hyper-connection)
模态原生文本 / 图像 / 视频 / 音频

核心结构依然是 Transformer Decoder,但每个模块都经过效率导向的重设计。

MoE:稀疏激活

基本结构

传统 Dense 模型每次 forward 都要动用全部参数。V4 采用 Mixture-of-Experts:

graph TD
    Input["Input Token"] --> Router["Router / Gating Network"]
    Router --> E7["Expert 7"]
    Router --> E23["Expert 23"]
    Router --> E156["Expert 156"]
    Router --> E891["Expert 891"]
    Router --> E_other["..."]
    
    E7 --> Agg["加权聚合"]
    E23 --> Agg
    E156 --> Agg
    E891 --> Agg
    E_other --> Agg
    Agg --> Output["Output"]
    
    style Router fill:#fff3e0,stroke:#ef6c00
    style Agg fill:#e3f2fd,stroke:#1565c0
  • 总专家数:256+
  • 激活专家:16 个 / token
  • 共享专家:部分专家始终激活,捕获通用知识

负载均衡

传统 MoE 需要 auxiliary loss 防止所有 token 涌向同一个专家(专家崩溃)。V4 采用 bias-based 动态调整:给每个专家一个可学习的 bias 项,根据历史负载动态修正路由分数。这样不需要辅助损失函数,训练更稳定。

训练时通过 all-to-all 通信做 expert 并行,推理时通过预取和缓存热门专家权重降低延迟。

MLA:压缩 KV Cache

问题背景

标准 Multi-Head Attention 的 KV Cache 随层数和头数线性膨胀。以 Llama-3 70B 为例,每 token 的 KV Cache 约 0.8MB。1M 上下文下,单层的 KV Cache 就要占用几百 GB 显存。

MLA 的压缩逻辑

MLA 把 KV 压缩到低维隐空间:

传统 MHA:
   K = W_K · x          (高维,需缓存)
   V = W_V · x          (高维,需缓存)

MLA:
   c_KV = W_DKV · x     (低维 latent vector,如 512-dim)
   K = W_UK · c_KV      (解压,只缓存 c_KV)
   V = W_UV · c_KV      (解压,只缓存 c_KV)

效果:KV Cache 从 ~0.8MB/token 降到 ~0.1MB/token,压缩比 5-10x。

推理友好性

MLA 不是”优化缓存管理”,而是从架构上减少需要缓存的数据量。这使得 1M 上下文窗口在消费级硬件上成为可能。Decode 阶段每次只需要读取压缩后的 c_KV,然后在 SRAM 内解压成 K/V,HBM 带宽需求大幅下降。

Engram Memory:长上下文的条件记忆

这是 V4 相对于 V3 的新增机制,用于支撑 1M tokens 的超长上下文。

核心思想

Engram(记忆痕迹)是有选择性的,不是平等记住所有信息:

长序列输入

    ├──► 在线流式处理 ──► 标准 MLA Attention (局部窗口)

    └──► Engram Encoder ──► 压缩关键信息到 Engram Memory Bank


                         后续 token 可通过 Engram Query 检索

工作机制

  • Engram 编码器:在 prefill 阶段,把长文档段落压缩成固定大小的记忆向量
  • 条件检索:Decode 阶段,当前 token 的 query 先查 Engram Memory Bank,再决定是否需要加载细节到标准 attention
  • 层级结构:可能有多级 Engram(段落级 → 章节级 → 文档级),形成树状索引

本质上是在模型内部实现了 RAG 的架构化——不是外挂检索系统,而是模型自身具备选择性记忆和压缩能力。

mHC:训练稳定性

Manifold-constrained Hyper-connection 解决超大规模 MoE 训练时的稳定性问题。

1T 参数 MoE + 超长上下文训练时:

  • 梯度爆炸/消失风险极高
  • 不同专家的学习速度差异大
  • 残差连接在超深网络中效果衰减

mHC 的设计:

传统残差连接:
   y = F(x) + x

mHC:
   y = Σ_i α_i · F_i(x) + β · x

       └── 多路径超连接,权重 α_i 受流形约束

约束: Σ α_i = 1, α_i ≥ 0
  • 超连接:每个层不只连接前一层,还连接到多个历史层和共享表示
  • 流形约束:连接权重被限制在一个低维流形上,防止梯度失控
  • 效果:训练 1T 参数模型时,loss 曲线更平滑

各组件的配合关系

graph LR
    MoE["MoE<br/>1T 参数稀疏激活"] --> mHC["mHC<br/>训练稳定性"]
    MoE --> MLA["MLA<br/>KV Cache 压缩"]
    MLA --> Engram["Engram Memory<br/>长上下文选择性记忆"]
    
    style MoE fill:#e8f5e9,stroke:#2e7d32
    style mHC fill:#fff3e0,stroke:#ef6c00
    style MLA fill:#e3f2fd,stroke:#1565c0
    style Engram fill:#f3e5f5,stroke:#7b1fa2

这几个技术不是独立堆叠的,是互相配合的:

组件解决的问题依赖其他组件
MoE总参数量子上去了,推理成本不炸需要 mHC 保证训练稳定
MLAKV Cache 太大,长上下文装不下让 1M 上下文在显存上可行
Engram Memory1M 上下文里信息太多,注意力分散依赖 MLA 省出的显存空间
mHC1T 参数训练不稳定让 MoE 能训到收敛

配合链路

  1. MoE 提供参数量子跃迁(1T)
  2. mHC 保证 MoE 能稳定训练
  3. MLA 把 KV Cache 压到 1/10,让 1M 上下文在显存上可行
  4. Engram Memory 在 1M 上下文内做选择性压缩,避免注意力分散

原生多模态

V4 不是”拼接多个专用编码器”的多模态,而是原生多模态:

文本 token ──┐
图像 patch  ──┼──► 统一 Tokenizer ──► 统一 Transformer (MoE + MLA)
视频帧      ──┤         (连续/离散混合表征)
音频采样    ──┘
  • 统一 Tokenizer:所有模态映射到同一个 latent space
  • 模态无关的 MoE:路由网络自动把图像 token 路由到视觉专家,文本 token 路由到语言专家,但共享底层表征
  • 时序统一:视频帧天然带时序,直接用位置编码 + Engram Memory 处理长视频

训练效率

V4 延续 R1 的路线,用 GRPO(Group Relative Policy Optimization)替代传统的 SFT + RLHF:

  • 模型自己生成对比样本,通过组内相对评分优化策略
  • 不需要昂贵的教师模型
  • 据报全程在华为昇腾(Ascend)集群训练,架构设计考虑了国产芯片的通信拓扑

和推理优化的配合

从推理框架的角度看,V4 的架构设计直接影响优化手段的选择:

推理优化V4 架构层面的配合
KV Cache 压缩MLA 直接减少 5-10x 缓存量
Prefix CachingEngram Memory 天然支持长文档片段复用
3D 并行MoE 的 Expert Parallelism 成为第 4 个并行维度
量化1T 参数必须权重量化,MoE 稀疏性让 per-expert 量化更精细
Kernel 优化固定 16 专家的 top-k 路由,利于编译时特化和 fused MoE kernel

总结

DeepSeek-V4 的架构设计围绕一个核心目标:在 1T 参数规模下,让推理时只激活 3% 的参数,同时支持 1M 上下文和原生多模态。MoE 提供稀疏性,MLA 解决显存,Engram Memory 解决长上下文的信息过载,mHC 保证训练能收敛。这几个组件互相依赖,缺一不可。