Skip to content

关于本教程

本站是 Triton GPU 编程的中文教程,旨在帮助中文开发者快速掌握 Triton 这门 DSL,写出高性能的 GPU 算子。

适合谁阅读

  • 想要学习 GPU 算子开发但被 CUDA 劝退的开发者
  • 做深度学习训练/推理优化的算法工程师
  • 想要理解 FlashAttention、算子融合等前沿技术实现的研究者
  • 关注大模型推理性能优化的工程师

内容覆盖

  • Triton 的核心概念与编程模型
  • 基础算子的实现(向量加、softmax、matmul 等)
  • 性能优化技巧(内存合并、共享内存、流水线等)
  • 自动调优与算子融合
  • FlashAttention 等实战案例

反馈与贡献

如果发现错误或希望补充内容,欢迎提交 issue 或 PR。

基于 MIT 协议发布