主题
用 Python 语法写出媲美 CUDA 的高性能 GPU 算子
用 Python 写出接近手工 CUDA 的性能,让算子开发不再是少数人的特权。
基于 Python DSL,熟悉的语法、熟悉的工具链,无需切换到 C++/CUDA 上下文。
编译器自动处理线程块调度、共享内存分配与流水线,专注算法本身。
涵盖 FlashAttention、算子融合等 LLM 时代核心场景,紧贴前沿。
内置 autotune 机制,自动搜索最优 BLOCK_SIZE、num_warps、num_stages。
从核心概念到工程实践,循序渐进的中文讲解,配套可运行的代码示例。