kvcache-ai

ktransformers

kvcache-ai

A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations

AI 简介

kvcache-ai/ktransformers 是一个用于体验异构大语言模型推理和微调优化的灵活框架。该项目的核心功能包括高效的推理服务(支持CPU-GPU异构计算)和基于LLaMA-Factory的微调,同时提供了对多种最新模型的支持如DeepSeek-V4-Flash、MiniMax-M2.5等,并且能够利用AVX2指令集进行加速。此外,它还引入了专家调度机制以优化资源使用效率,并支持BF16与FP8精度格式来提高计算性能。ktransformers适用于需要在边缘设备上运行复杂AI应用或希望降低成本同时保持高性能推理及微调能力的研究人员和开发者。

Python
Apache License 2.0
17.3k
Stars
1.3k
Forks
109
Watchers
442
Issues

Star 增长

今日+2
近 7 天+17
近 30 天+124
综合评分91.85
默认分支main