关于本教程

本站是 Triton GPU 编程的中文教程，旨在帮助中文开发者快速掌握 Triton 这门 DSL，写出高性能的 GPU 算子。

适合谁阅读

想要学习 GPU 算子开发但被 CUDA 劝退的开发者
做深度学习训练/推理优化的算法工程师
想要理解 FlashAttention、算子融合等前沿技术实现的研究者
关注大模型推理性能优化的工程师

内容覆盖

Triton 的核心概念与编程模型
基础算子的实现（向量加、softmax、matmul 等）
性能优化技巧（内存合并、共享内存、流水线等）
自动调优与算子融合
FlashAttention 等实战案例

反馈与贡献

如果发现错误或希望补充内容，欢迎提交 issue 或 PR。