C++ / OS / CUDA / HPC
C++ / OS / CUDA / HPC
C++、OS、CUDA / HPC。
Systems Review
continuous batching、PagedAttention、prefill / decode、decoder-only Transformer block。
Recent Posts
基于 Python + Pydantic + FastAPI 风格 HTTP 服务搭建的多模态对话 Agent 原型,覆盖 VLM 图像理解、多轮状态管理、结构化输出校验、端云路由、工具调用、主动交互与 Case 分析,面向机器人交互场景的完整技术实践。
整理深度学习编译器和高性能 kernel DSL 的实际作用,避免和推理引擎搞混。
DP、TP、PP 单独看都明白,叠加在一起就容易晕。整理一下实际怎么用。
整理百万上下文下 prefill、decode 和调度的实际瓶颈。
整理 DeepSeek-V4 的架构设计,包括 MoE、MLA、Engram Memory 和 mHC。
从 Kernel 实现角度对比 MLA 和 MHA,包括内存访问、计算强度和量化影响。
C++ / OS / CUDA / HPC
先把 C++ 面试里最常见的三条线讲顺:对象怎么活、资源怎么管、并发代码为什么会错。
把 CUDA / HPC 面试里最常被问的执行模型、内存层次和性能分析连成一条链。
把进程、虚拟内存、页表、文件描述符和系统调用放到一条能讲顺的链上。
这组文章怎么读、每篇解决什么问题,以及写这组内容时我刻意保留的边界。