TVM 与 TileLang:深度学习编译器
整理深度学习编译器和高性能 kernel DSL 的实际作用,避免和推理引擎搞混。
整理深度学习编译器和高性能 kernel DSL 的实际作用,避免和推理引擎搞混。
DP、TP、PP 单独看都明白,叠加在一起就容易晕。整理一下实际怎么用。
整理百万上下文下 prefill、decode 和调度的实际瓶颈。
整理 DeepSeek-V4 的架构设计,包括 MoE、MLA、Engram Memory 和 mHC。
从 Kernel 实现角度对比 MLA 和 MHA,包括内存访问、计算强度和量化影响。
整理 TileLang 的核心概念和写法,作为学习过程中的记录。
整理LLM推理优化到底在忙什么,避免变成名词表。