关于本教程
本站是 Triton GPU 编程的中文教程,旨在帮助中文开发者快速掌握 Triton 这门 DSL,写出高性能的 GPU 算子。
适合谁阅读
- 想要学习 GPU 算子开发但被 CUDA 劝退的开发者
- 做深度学习训练/推理优化的算法工程师
- 想要理解 FlashAttention、算子融合等前沿技术实现的研究者
- 关注大模型推理性能优化的工程师
内容覆盖
- Triton 的核心概念与编程模型
- 基础算子的实现(向量加、softmax、matmul 等)
- 性能优化技巧(内存合并、共享内存、流水线等)
- 自动调优与算子融合
- FlashAttention 等实战案例
反馈与贡献
如果发现错误或希望补充内容,欢迎提交 issue 或 PR。