
TileKernels
deepseek-ai
A kernel library written in tilelang
AI 简介
TileKernels 是一个使用 TileLang 编写的 GPU 内核库,专为大规模语言模型(LLM)操作优化。该项目提供了包括门控、MoE 路由、量化、转置、Engram 门控以及超连接等核心功能的高性能内核,并支持 FP8/FP4/E5M6 量化和融合操作。这些内核接近硬件性能极限,在计算强度和内存带宽方面表现出色。适用于需要高效执行 LLM 训练与推理任务的场景,特别是那些对性能有高要求的应用环境。开发人员可以通过 PyTorch 的 autograd 函数封装将低级内核组合成可训练层,从而简化模型构建过程。
Python
MIT License1.6k
Stars
137
Forks
11
Watchers
6
Issues
Star 增长
今日0
近 7 天+13
近 30 天+88
综合评分69.72
默认分支main