入口
C++ / OS / CUDA / HPC
C++、OS、CUDA / HPC。
打开Archive
HPC / CUDA / System
入口
C++、OS、CUDA / HPC。
打开入口
把 continuous batching、PagedAttention 和 prefill/decode 放到一页里。
打开基于 Python + Pydantic + FastAPI 风格 HTTP 服务搭建的多模态对话 Agent 原型,覆盖 VLM 图像理解、多轮状态管理、结构化输出校验、端云路由、工具调用、主动交互与 Case 分析,面向机器人交互场景的完整技术实践。
整理深度学习编译器和高性能 kernel DSL 的实际作用,避免和推理引擎搞混。
DP、TP、PP 单独看都明白,叠加在一起就容易晕。整理一下实际怎么用。
整理百万上下文下 prefill、decode 和调度的实际瓶颈。
整理 DeepSeek-V4 的架构设计,包括 MoE、MLA、Engram Memory 和 mHC。
从 Kernel 实现角度对比 MLA 和 MHA,包括内存访问、计算强度和量化影响。
整理 TileLang 的核心概念和写法,作为学习过程中的记录。
整理LLM推理优化到底在忙什么,避免变成名词表。
先把 C++ 面试里最常见的三条线讲顺:对象怎么活、资源怎么管、并发代码为什么会错。
把 CUDA / HPC 面试里最常被问的执行模型、内存层次和性能分析连成一条链。
把进程、虚拟内存、页表、文件描述符和系统调用放到一条能讲顺的链上。
这组文章怎么读、每篇解决什么问题,以及写这组内容时我刻意保留的边界。
超算队招新题解。
面向日常工程与算法题场景的 STL 常见容器、算法与注意事项速查。
在 Jetson 上用 vLLM 推理在线模型和本地模型,并按 1TB 盘上的目录结构组织模型文件。
从 ELF 结构出发,梳理可执行文件的执行视图、链接视图以及加载过程中的关键组成。
面向完全初学者的 Docker 入门文档,介绍 Docker 的核心概念、基本用法、Dockerfile 与 Compose 的作用,以及 Jetson 平台上的常见注意事项。
sEMU 的 Doxygen 文档入口,包含类索引、文件索引和在线阅读入口。
详解文件描述符、文件系统层级(FHS)、管道与Socket通信机制
深入剖析 Linux 进程创建(fork)、加载(execve)以及虚拟内存映射(mmap)的底层机制
你需要写一个运行在 GPU 上的程序,实现多头注意力机制。
一点小小的记录
OpenMP 并行编程完整参考与实例代码